2025_NIPS_Visual Anchors Are Strong Information Aggregators For Multimodal Large Language Model
文章核心总结与翻译一、主要内容本文聚焦多模态大语言模型(MLLMs)中的视觉-语言连接器设计,核心目标是在提升模型精度的同时降低计算成本。现有连接器(如Q-Former、Perceiver Resampler)存在依赖海量训练数据、固定查询导致信息丢失等问题。研究通过分析视觉Transformer的特征图和注意力图,发现了"视觉锚点"(visual anchors)的存在——这些锚点是视觉特征转换中信息聚合的关键节点,且位置随输入图像变化。基于此,作者提出新型视觉-语言连接器Anchor Former(AcFormer),包含三个核心模块:Anchor Selector:通过成本效益高的渐进式搜索算法,从[CLS] token的注意力图中提取视觉锚点;Information Aggregation Module:以视觉锚点为信息聚合器,通过双向Transformer编码器和交叉注意力机制生成密集完整的视觉表征;Linear Projector:将聚合后的视觉特征投影至LLM的嵌入空间,与文本特征拼接作为模型输入。实验在9个基准数据集(含MME、MMB、TextVQA等)上验证,AcFormer在仅使用145/257个视觉token(远少于LLaVA-1.5的577个)的情况下,精度优于现有基线模型,同时训练速度提升1.65-2.3倍,计算成本降低近2/3。二、创新点
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2553593.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!