聚焦结构化注意力，探索提升多模态大模型文档问答性能

Source : mp.weixin.qq.com

本文聚焦多模态大语言模型（MLLMs）在文档问答（DocQA）任务中的性能提升，提出无需改动模型架构或额外训练的结构化输入方法，通过保留文档层次结构与空间关系（如标题、表格、图像位置）优化理解能力。研究发现，传统无结构OCR输入导致注意力分散，性能下降，而 LaTeX 范式结构化输入显著提升表现。注意力分析揭示其诱导“结构化注意力”，减少无关区域干扰，聚焦语义核心。在MMLongBench、PaperTab等四个数据集上验证，该方法尤其在复杂图表任务中效果显著，为智能文档处理与自动问答提供高效的解决方案。