聚焦结构化注意力,探索提升多模态大模型文档问答性能
Source :
mp.weixin.qq.com
本文聚焦多模态大语言模型(MLLMs)在文档问答(DocQA)任务中的性能提升,提出无需改动模型架构或额外训练的结构化输入方法,通过保留文档层次结构与空间关系(如标题、表格、图像位置)优化理解能力。研究发现,传统无结构OCR输入导致注意力分散,性能下降,而 LaTeX 范式结构化输入显著提升表现。注意力分析揭示其诱导“结构化注意力”,减少无关区域干扰,聚焦语义核心。在MMLongBench、PaperTab等四个数据集上验证,该方法尤其在复杂图表任务中效果显著,为智能文档处理与自动问答提供高效的解决方案。