2025_NIPS_JavisGPT: A Unified Multi-modal LLM for Sounding-Video Comprehension and Generation

news2026/4/6 3:00:58

JavisGPT 论文核心总结与翻译一、主要内容总结JavisGPT 是首个面向同步音视频（sounding video）理解与生成的统一多模态大语言模型（MLLM），核心解决现有模型将音视频视为独立模态、缺乏时空同步建模的问题。模型采用编码器-LLM-解码器架构，以 Qwen2.5-VL-7B-Instruct 为骨干，通过 SyncFusion 模块实现音视频时空融合，并结合可学习查询连接 JAV-DiT 生成器，支持多模态指令驱动的理解与生成任务。训练分为三阶段：多模态预训练、音视频微调、大规模指令调优，配套构建了含 20 万条音视频文本对话的 JavisInst-Omni 数据集。实验表明，JavisGPT 在音视频理解（如 AVQA、ClothoAQA）、生成（如同步性、语义一致性）及交织式对话任务中均达到 SOTA 性能，能高效处理多轮交互、指令跟随等复杂场景。二、核心创新点统一架构设计：首次提出编码器-LLM-解码器架构用于音视频联合理解与生成，通过 SyncFusion 模块显式建模音视频时空同步，解决传统模型融合粗糙的问题。分层条件嵌入机制：引入语义条件和时空先验条件双查询结构，强化生成内容的音视频同步性，无需全量微调生成器即可实现高效对齐。三阶段训练 pipeline：逐步实现音频分支适配、音视频同步增强、指令跟随能力提升，兼顾模型性能与训练效率。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2487697.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！