2025_NIPS_MVU-Eval: Towards Multi-Video Understanding Evaluation for Multimodal LLMs

news2026/3/16 4:45:08

一、文章主要内容总结该研究针对现有多模态大语言模型（MLLMs）评估基准局限于单视频理解、无法满足现实场景中多视频分析需求的问题，提出了首个全面的多视频理解评估基准MVU-Eval。核心内容：基准设计：涵盖8项核心能力（4项基础感知任务+4项高阶推理任务），包含1824个精心构建的问答对，涉及4959个来自生活、自动驾驶、体育、AIGC等多领域的视频，需模型跨视频整合信息完成任务。任务分类：感知任务：目标识别（OR）、空间理解（SU）、计数（Counting）、比较（Comparison），聚焦视觉特征提取与跨视频内容识别；推理任务：知识密集型推理（KIR）、上下文学习（ICL）、检索增强生成（RAG）、时间推理（TR），侧重跨视频分析与信息推断。实验结果：现有MLLMs多视频理解能力存在显著提升空间，顶尖闭源模型Gemini 2.5 Pro准确率仅58.4%，多数开源模型低于50%；模型性能与规模正相关，支持更长上下文（更多帧、更高分辨率）的模型表现更优；不同模型在各子任务上表现不均衡，部分小模型因架构或数据策略优势优于更大模型。关键发现：多视频数量增加会导致模型性能下降，视觉信息完整性（如完整视频描述优

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2415014.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！