2025_NIPS_RT V-Bench: Benchmarking MLLM Continuous Perception, Understanding and Reasoning through R

news2026/4/3 3:24:43

文章主要内容与创新点总结一、主要内容本文针对现有基准测试无法充分评估多模态大语言模型（MLLMs）在动态真实环境中持续感知、理解和推理能力的问题，提出了实时视频分析基准测试集RT V-Bench。该基准包含552个多样化视频（总时长167.2小时）和4631个高质量问答对，涵盖智能驾驶、体育赛事、第一视角视频三大核心领域及16个子类。研究通过对主流MLLMs的评估（包括闭源商业模型GPT-4o、Gemini 2.0，开源离线模型Qwen2.5-VL、VideoLLaMA3等，开源实时模型VITA-1.5、InternLM-XComposer2.5-OmniLive），得出关键发现：开源实时模型在实时视频分析任务中显著优于离线模型，但仍落后于顶尖闭源模型；模型规模扩大或帧采样率提高对性能提升无显著作用，甚至可能导致轻微下降；中等规模模型（7B-34B）在实时任务中的表现优于更小或更大规模模型，呈现非单调缩放特性；现有模型在复杂推理任务（如时空推理、未来预测）上仍存在明显瓶颈，多数模型准确率低于50%。二、创新点多时间戳问答机制（MTQA）：同一概念查询在视频不同时间点的正确答案会随场景变化，而非不同时间点设置不同问题，更严格地测试模型的实时持续分析能力；分层问题结构：每个问题组包含基础到高级的递进式问题，高阶问题依赖对基础感知和理解的掌握，避免模型通过认知捷径得出答案

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2477514.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！