南京大学等联合发布开源语音大模型VITA-Qinyu,首发支持角色扮演+哼唱
在 AI 语音交互的赛道上南京大学联合腾讯音乐研发的 VITA-Qinyu 正式亮相。这是业内首款兼具自然对话、高表现力角色扮演与歌唱能力的开源端到端语音语言模型SLM一举打破了传统语音模型仅聚焦对话准确性、缺乏情感与场景表现力的局限让 AI 语音交互真正走向「有温度、有个性、有乐趣」。更重要的是团队已将 VITA-QinYu 的训练代码与模型权重全面开源邀全球开发者共建推动表达型语音大模型的技术迭代与场景落地GitHub地址https://github.com/VITA-MLLM/VITA-QinYuDemo地址https://tme-lyra-lab.github.io/VITA-QinYu/论文地址Coming Soon颠覆体验AI 不止会对话更能演角色、唱金曲过去的端到端语音语言模型核心能力集中在实现流畅的自然对话却难以捕捉人类语音中丰富的副语言信息——比如温柔的安慰语气、贴合角色的专属声线、随口哼唱的旋律这些充满「人情味」的表达始终是 AI 语音的短板。而 VITA-QinYu 的出现填补了这一空白。它首次将角色扮演与歌唱能力融入通用语音对话模型实现了三大核心能力✅ 自然对话保持顶尖的对话准确性与流畅度理解、推理能力媲美同等规模大小的LLM✅ 角色扮演通过给定自然语言描述定制角色进行交流同步支持动态音色控制多轮对话人物设定的一致性角色扮演种类无限制✅ 歌唱生成无需乐谱输入仅通过用户输入相关哼唱的指令即可生成自然演唱语音打破传统歌声合成对结构化音乐信息的依赖。从日常的景点推荐、聊天互动到化身修仙前辈展开沉浸式角色扮演再到随口点歌就能哼唱经典旋律VITA-QinYu 让 AI 语音交互的场景边界被彻底拓宽。接下来听一下 demo 效果重心在新能力效果探索上并没有做 VLLM 以及其他相关的加速目前实际延时在 H20 上 2s 左右自然对话哼唱能力角色扮演该角色是一个青年男性身份是穿越者/现代灵魂性格跳脱吐槽、偶尔迷茫气质违和音色自然带现代口语该角色是一个幼儿女性身份是世家千金性格活泼机敏、爱撒娇气质天真灵动音色甜润语速较快该角色是一个中年男性 身份是修真界的前辈高人 , 性格沉稳淡定善于提出建设性意见气质偏向智者风格该角色是一个青年女性身份是苗女/异族少女性格直率泼辣、敢爱敢恨气质野性奔放音色独特带口音硬核设计混合语音-文本范式解锁更丰富的语音表达VITA-QinYu 的出色表现源于其创新的混合语音-文本建模范式。在原有交错文本-音频建模的基础上模型引入了多码本音频令牌既实现了更丰富的副语言特征表征又保证了音、文模态的清晰分离避免相互干扰从底层解决了「表达丰富性」与「模态稳定性」的矛盾。模型的核心架构还包含这些关键设计双骨干模型可选以 Decoder-only Transformer 为基础支持 Qwen3-8B、Youtu-LLM-4B 双骨干推出 4B/8B 两个版本支持多轮对话仅保留历史文本响应以降低计算成本兼顾性能与轻量化动态音色控制集成 Text-to-TimbreTTT模块以及 speaker embedding 相关模块通过角色描述即可生成匹配的声线实现动态音色控制高保真音频编解码采用 XY-Tokenizer 多码本编解码器12.5Hz 下 8 个码本相比单码本方案能更精准还原语音与歌唱的旋律、韵律提升生成质量。海量数据多维度精细化处理筑牢模型训练根基高质量的模型离不开大规模、多维度、精细化的数据集支撑与处理。VITA-QinYu 团队打造了一套覆盖自然对话、角色扮演、歌唱三大类的全链路数据处理流水线累计构建12K 小时自然对话数据、2.6K 小时角色扮演数据、1.2K 小时歌唱数据并通过多轮筛选、标注、合成优化让每一类数据都精准匹配模型能力训练需求为三大核心能力的落地筑牢基础。自然对话数据双层筛选 情感优化从多源文本中筛选 155 万条中英样本通过长度限制、正则过滤、模型打分剔除低质内容对高分样本做情感分析与口语改写生成 40 万条富含情绪的自然对话合成 9 万 独特说话人语音查询提升模型对不同声线、口音的适配性。角色扮演数据三阶段流水线保障人设统一从有声书中提取 2 万 角色定义人口统计、声线风格等四大属性通过属性约束提示词生成 8 万 轮贴合人设的多回合脚本为脚本标注情绪指令用指令式 TTS 生成精细控制韵律与情绪的语音数据累计 2.6K 小时。哼唱数据无乐谱适配日常场景收集 5000 首热门歌曲分解片段并提取 MIDI 旋律通过零样本 SVS 生成高保真 vocal 片段绑定统一声线将标准化点歌指令改写为「唱一段青花瓷」等口语化查询构建 1.2K 小时歌唱数据。开源共建代码模型全开放邀开发者一起完善为了让更多开发者能够参与到表达型语音大模型的研发中推动技术的快速迭代与场景落地做出了一个重要决定——将模型的训练代码、权重全面开源并打造了一套易用的 Web demo 演示系统支持流式传输与全双工交互。这套系统融合了 Whisper 语音识别、TEN 框架实现打断检测能力还原了真实自然的人机语音交互场景开发者无需复杂部署即可快速体验自然对话、角色扮演相关的效果能力更能基于开源代码与模型进行二次开发、场景定制与技术优化。从基础的语音交互优化到个性化的角色音色定制再到歌唱能力的升级、垂直场景的适配VITA-QinYu 的开源为开发者提供了全新的技术底座期待全球开发者的加入一起完善模型能力探索更多新可能。未来可期开启表达型语音大模型新时代目前 VITA-QinYu 的角色扮演与歌唱能力仍处于早期探索阶段团队表示未来将持续优化模型进一步提升表达丰富度、场景适配性与生成质量。而此次开源更是为行业注入了新的活力让更多开发者能够参与其中共同推动 AI 语音交互技术的发展。这款「能说、会演、善唱」的 AI 语音大模型正在为智能助手、沉浸式交互、数字人、语音娱乐、在线教育等领域打开全新的想象空间。相信在开源社区的共同努力下VITA-QinYu 将不断进化让 AI 语音的交互体验更贴近人类让科技真正拥有「人情味儿」。✨ 开源已启未来共筑快来解锁 AI 语音交互的全新可能现在在「知乎」也能找到我们了进入知乎首页搜索「PaperWeekly」点击「关注」订阅我们的专栏吧·
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2480506.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!