2025_NIPS_JavisGPT: A Unified Multi-modal LLM for Sounding-Video Comprehension and Generation
JavisGPT 论文核心总结与翻译一、主要内容总结JavisGPT 是首个面向同步音视频(sounding video)理解与生成的统一多模态大语言模型(MLLM),核心解决现有模型将音视频视为独立模态、缺乏时空同步建模的问题。模型采用编码器-LLM-解码器架构,以 Qwen2.5-VL-7B-Instruct 为骨干,通过 SyncFusion 模块实现音视频时空融合,并结合可学习查询连接 JAV-DiT 生成器,支持多模态指令驱动的理解与生成任务。训练分为三阶段:多模态预训练、音视频微调、大规模指令调优,配套构建了含 20 万条音视频文本对话的 JavisInst-Omni 数据集。实验表明,JavisGPT 在音视频理解(如 AVQA、ClothoAQA)、生成(如同步性、语义一致性)及交织式对话任务中均达到 SOTA 性能,能高效处理多轮交互、指令跟随等复杂场景。二、核心创新点统一架构设计:首次提出编码器-LLM-解码器架构用于音视频联合理解与生成,通过 SyncFusion 模块显式建模音视频时空同步,解决传统模型融合粗糙的问题。分层条件嵌入机制:引入语义条件和时空先验条件双查询结构,强化生成内容的音视频同步性,无需全量微调生成器即可实现高效对齐。三阶段训练 pipeline:逐步实现音频分支适配、音视频同步增强、指令跟随能力提升,兼顾模型性能与训练效率。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2487697.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!