2025_NIPS_RT V-Bench: Benchmarking MLLM Continuous Perception, Understanding and Reasoning through R
文章主要内容与创新点总结一、主要内容本文针对现有基准测试无法充分评估多模态大语言模型(MLLMs)在动态真实环境中持续感知、理解和推理能力的问题,提出了实时视频分析基准测试集RT V-Bench。该基准包含552个多样化视频(总时长167.2小时)和4631个高质量问答对,涵盖智能驾驶、体育赛事、第一视角视频三大核心领域及16个子类。研究通过对主流MLLMs的评估(包括闭源商业模型GPT-4o、Gemini 2.0,开源离线模型Qwen2.5-VL、VideoLLaMA3等,开源实时模型VITA-1.5、InternLM-XComposer2.5-OmniLive),得出关键发现:开源实时模型在实时视频分析任务中显著优于离线模型,但仍落后于顶尖闭源模型;模型规模扩大或帧采样率提高对性能提升无显著作用,甚至可能导致轻微下降;中等规模模型(7B-34B)在实时任务中的表现优于更小或更大规模模型,呈现非单调缩放特性;现有模型在复杂推理任务(如时空推理、未来预测)上仍存在明显瓶颈,多数模型准确率低于50%。二、创新点多时间戳问答机制(MTQA):同一概念查询在视频不同时间点的正确答案会随场景变化,而非不同时间点设置不同问题,更严格地测试模型的实时持续分析能力;分层问题结构:每个问题组包含基础到高级的递进式问题,高阶问题依赖对基础感知和理解的掌握,避免模型通过认知捷径得出答案
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2477514.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!