华为:渐进解锁细粒度视觉感知
标题FineViT: Progressively Unlocking Fine-Grained Perception with Dense Recaptions来源arXiv, 2603.17326v1摘要虽然多模态大语言模型MLLM经历了快速的发展但其视觉编码器经常仍然是性能瓶颈。传统的基于CLIP的编码器由于低分辨率预训练造成的视觉细节丢失以及对噪声的依赖而难以处理密集的空间任务。为了克服这些限制我们引入了FineViT一种专门设计用于解锁细粒度感知的新型视觉编码器。通过用密集的重现替换粗糙的网络数据我们通过渐进式训练范式系统地减轻信息丢失。首先编码器在数十亿个全局重新捕获的图像-文本对上以高原生分辨率从头开始训练建立鲁棒的、细节丰富的语义基础。随后我们利用FineCap-450 M数据集通过LLM对齐进一步增强其本地感知该数据集包含超过4.5亿个高质量的本地字幕。大量实验验证了渐进策略的有效性。FineViT实现了最先进的零射击识别和检索性能特别是在长上下文检索中并始终优于多模态视觉编码器如SigLIP 2和Qwen-ViT集成到MLLM。我们希望FineViT可以作为一个强大的新的基线细粒度视觉感知。️文章简介研究问题如何解决现有基于 CLIP 的视觉编码器因低分辨率预训练和粗糙网络数据导致的细节丢失从而突破多模态大模型在密集空间任务上的性能瓶颈主要贡献论文提出了 FineViT 视觉编码器及 FineCap-450M 数据集通过渐进式训练范式实现了业界领先的细粒度视觉感知能力。重点思路构建大规模细粒度重标注数据集 FineCap-450M利用多模型集成对 18 亿图像进行全局重描述并进一步生成包含 4.54 亿区域的高质量局部标注涵盖自然场景、富文本及文档。设计三阶段渐进式训练策略首先利用掩码图像建模MIM在无标签数据上建立基础空间感知其次在高分辨率下进行大规模对比学习以对齐语义最后结合大语言模型进行多粒度对齐训练。采用原生高分辨率输入机制从预训练阶段的 448 分辨率逐步提升至对齐阶段的 1K 分辨率并结合 2D RoPE 位置编码有效保留图像中的细微空间结构和文本信息。将局部感知任务如边界框到文本、文本到边界框、OCR 等统一重构为序列生成任务利用自回归损失函数强化模型对局部细节和空间坐标的精确理解。分析总结在零样本分类和检索任务中FineViT 以少于 SigLIP2-g 的参数量取得了更具竞争力的成绩特别是在长文本检索基准DCI、Urban-1k上大幅超越现有最优模型接近饱和性能。集成到多模态大模型后FineViT 在 OCR、图表理解及视觉定位等需要细粒度感知的任务上显著优于 Qwen-ViT 和 InternViT证明了其在解析复杂视觉结构方面的优势。消融实验表明第三阶段的局部对齐训练对于提升空间密集任务性能至关重要且解冻视觉骨干网络能进一步挖掘其在精确定位任务中的潜力。随着后端大语言模型规模的扩大FineViT 始终保持相对于基线模型的领先优势显示出良好的可扩展性和与不同规模语言模型的兼容性。个人观点论文打破了传统视觉编码器依赖粗糙网络数据和固定低分辨率的局限提出从粗到细、由全局至局部的系统化设计思路。附录
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2483748.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!