2025_NIPS_MVU-Eval: Towards Multi-Video Understanding Evaluation for Multimodal LLMs
一、文章主要内容总结该研究针对现有多模态大语言模型(MLLMs)评估基准局限于单视频理解、无法满足现实场景中多视频分析需求的问题,提出了首个全面的多视频理解评估基准MVU-Eval。核心内容:基准设计:涵盖8项核心能力(4项基础感知任务+4项高阶推理任务),包含1824个精心构建的问答对,涉及4959个来自生活、自动驾驶、体育、AIGC等多领域的视频,需模型跨视频整合信息完成任务。任务分类:感知任务:目标识别(OR)、空间理解(SU)、计数(Counting)、比较(Comparison),聚焦视觉特征提取与跨视频内容识别;推理任务:知识密集型推理(KIR)、上下文学习(ICL)、检索增强生成(RAG)、时间推理(TR),侧重跨视频分析与信息推断。实验结果:现有MLLMs多视频理解能力存在显著提升空间,顶尖闭源模型Gemini 2.5 Pro准确率仅58.4%,多数开源模型低于50%;模型性能与规模正相关,支持更长上下文(更多帧、更高分辨率)的模型表现更优;不同模型在各子任务上表现不均衡,部分小模型因架构或数据策略优势优于更大模型。关键发现:多视频数量增加会导致模型性能下降,视觉信息完整性(如完整视频描述优
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2415014.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!