2025_NIPS_Visual Anchors Are Strong Information Aggregators For Multimodal Large Language Model

news2026/4/30 22:31:01

文章核心总结与翻译一、主要内容本文聚焦多模态大语言模型（MLLMs）中的视觉-语言连接器设计，核心目标是在提升模型精度的同时降低计算成本。现有连接器（如Q-Former、Perceiver Resampler）存在依赖海量训练数据、固定查询导致信息丢失等问题。研究通过分析视觉Transformer的特征图和注意力图，发现了"视觉锚点"（visual anchors）的存在——这些锚点是视觉特征转换中信息聚合的关键节点，且位置随输入图像变化。基于此，作者提出新型视觉-语言连接器Anchor Former（AcFormer），包含三个核心模块：Anchor Selector：通过成本效益高的渐进式搜索算法，从[CLS] token的注意力图中提取视觉锚点；Information Aggregation Module：以视觉锚点为信息聚合器，通过双向Transformer编码器和交叉注意力机制生成密集完整的视觉表征；Linear Projector：将聚合后的视觉特征投影至LLM的嵌入空间，与文本特征拼接作为模型输入。实验在9个基准数据集（含MME、MMB、TextVQA等）上验证，AcFormer在仅使用145/257个视觉token（远少于LLaVA-1.5的577个）的情况下，精度优于现有基线模型，同时训练速度提升1.65-2.3倍，计算成本降低近2/3。二、创新点

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2553593.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！