【论文】FunAudioLLM:一个旨在增强人类与大型语言模型(LLMs)之间自然语音交互的模型家族

news2025/7/19 9:14:53

研究背景

1.研究问题:这篇文章要解决的问题是如何增强人类与大型语言模型(LLMs)之间的自然语音交互。具体来说,研究集中在语音识别、情感识别和音频事件检测(多语言)以及语音生成(多语言、零样本学习、跨语言语音克隆和指令跟随能力)两个方面。

2.研究难点:该问题的研究难点包括:实现低延迟的多语言语音识别;在多语言环境中进行高精度的语音识别;生成自然且具有情感表达的多语言语音;以及在零样本情况下进行语音克隆和指令跟随。

3.相关工作:该问题的研究相关工作包括GPT-4o、Gemini-1.5等高性能语言模型的发展,以及高精度语音识别、情感识别和语音生成技术的进步。

研究方法

这篇论文提出了FunAudioLLM框架,用于解决人类与LLMs之间的自然语音交互问题。具体来说,

1.SenseVoice模型:SenseVoice模型用于语音理解,支持多语言语音识别、情感识别和音频事件检测。SenseVoice-Small是一个非自回归的编码器模型,适用于快速语音理解,支持五种语言(中文、英语、粤语、日语和韩语),推理延迟小于80ms,速度比Whisper-small快5倍以上,比Whisper-large快15倍以上。SenseVoice-Large是一个自回归的编码器-解码器模型,支持超过50种语言的语音识别,特别在中文和粤语上表现优异。

img

2.CosyVoice模型:CosyVoice模型用于语音生成,支持多语言语音生成,具有零样本学习、跨语言语音克隆、情感共振语音生成和指令微调等功能。CosyVoice-base-300M模型专注于准确表示说话人身份、零样本学习和跨语言语音克隆。CosyVoice-instruct-300M模型通过指令文本生成情感丰富的语音,并允许对说话人身份、说话风格等进行细致调整。CosyVoice-sft-300M模型在七个多语言说话人上进行微调,准备立即部署。

img

3.语义语音分词器:为了提高系统性能和减少对高质量数据的需求,论文提出了一种监督语义语音分词器S3S3。该分词器基于预训练的SenseVoice-Large模型,在编码器的初始六层之后引入一个向量量化器,增强了时间信息。

img

4.零样本上下文学习和指令微调:CosyVoice模型展示了零样本上下文学习能力,允许通过简短的参考语音样本复制任意声音。此外,CosyVoice-instruct模型通过指令文本进一步增强了可控性,支持说话人身份、说话风格和细粒度副语言特征的控制。

img

实验设计

1.数据集:SenseVoice模型的训练数据集包括约300,000小时的音频数据,覆盖五种语言(中文、粤语、英语、日语和韩语)。为了进一步提升SenseVoice-Large的多语言能力,额外整合了100,000小时的多语言数据。CosyVoice模型的训练数据集包括多种语言,使用内部工具进行语音检测、信噪比估计、说话人分离和分离。

img

2.评估指标:多语言语音识别使用字符错误率(CER)和词错误率(WER)进行评估。情感识别使用未加权平均准确率(UA)、加权平均准确率(WA)、宏平均F1分数(F1)和加权平均F1(WF1)进行评估。音频事件检测使用F1分数进行评估。

3.实验设置:在A800机器上进行推理效率评估,解码批处理大小为1。对于编码器-解码器模型,使用束搜索解码,束大小为5。

结果与分析

1.多语言语音识别:SenseVoice-S和SenseVoice-L在大多数测试集上显著优于Whisper模型,特别是在粤语、加泰罗尼亚语和马哈拉施特拉语上表现优异。SenseVoice-S的推理延迟比Whisper-small快5倍以上,比Whisper-large快15倍以上。

img

2.情感识别:SenseVoice-Large在所有测试集和所有指标上表现最佳,SenseVoice-Small在大多数数据集上也优于其他基线模型。

img

3.音频事件检测:SenseVoice模型在音频事件分类或检测方面表现良好,尽管BEATS和PANNs可能在某些任务上具有更高的F1分数。

img

4.语义信息保留:S3分词器在中文和英语测试集上展示了强大的识别性能,在Common Voice zh-CN集上,S3分词器比Whisper-Large V3模型的错误率降低了4.14%。

5.生成质量:CosyVoice在英语和中文生成质量评估中表现出色,内容一致性和说话人相似性均达到人类水平。通过ASR重排序,CosyVoice的WER显著降低。

img

6.情感控制:CosyVoice-instruct在情感控制方面表现优异,情感指令输入下的情感识别准确率显著提高。

总体结论

这篇论文提出的FunAudioLLM框架通过SenseVoice和CosyVoice两个创新模型,显著提升了人类与LLMs之间的自然语音交互能力。SenseVoice模型在多语言语音识别和情感识别方面表现优异,而CosyVoice模型在多语言语音生成和控制方面具有显著优势。FunAudioLLM框架的应用包括语音翻译、情感语音聊天、互动播客和富有表现力的有声书叙述,推动了语音交互技术的前沿。

论文评价

优点与创新

1.SenseVoice模型

a.多语言语音识别:SenseVoice-Small支持五种语言的低延迟自动语音识别(ASR),而SenseVoice-Large支持超过50种语言的高精度ASR。

b.情感识别和音频事件检测:SenseVoice不仅支持语音识别,还提供先进的情感识别和音频事件检测功能。

c.非自回归架构:SenseVoice-Small采用非自回归端到端架构,推理延迟极低,比Whisper-small快5倍以上,比Whisper-large快15倍以上。

2.CosyVoice模型

a.多语言语音生成:CosyVoice支持五种语言的语音生成,能够生成自然听起来的语音。

b.零样本上下文学习:CosyVoice能够在没有训练的情况下进行语音克隆,仅需3秒的提示语音。

c.跨语言语音克隆:CosyVoice可以跨语言复制语音,生成具有不同音色、情感和风格的语音。

d.指令微调:通过指令文本控制说话人身份、说话风格和其他细粒度的副语言特征。

3.开源模型

a.SenseVoice和CosyVoice的相关模型已在Modelscope和Huggingface上开源,并发布了相应的训练、推理和微调代码。

4.丰富的应用场景

a.FunAudioLLM通过与LLMs的集成,提供了语音翻译、情感语音聊天、互动播客和富有表现力的有声书叙述等多种应用演示。

不足与反思

1.SenseVoice的局限性

a.对于资源较少的语言,ASR性能通常较低。

b.SenseVoice不是为流式转录设计的,未来工作可能会专注于开发基于SenseVoice的可流式语音理解模型。

2.CosyVoice的局限性

a.支持的语言数量有限,虽然可以根据显式指令表达情感和说话风格,但不能根据文本的语义内容推断适当的情感或风格。

b.在唱歌方面表现不佳,需要在保持原始音色的同时实现富有表现力的情感变化。

c.两个创新模型与LLMs的训练不是端到端的,这种管道方法可能会引入错误传播,影响整体性能。

如何学习AI大模型?

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

四、AI大模型商业化落地方案

img

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2162593.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

云栖3天,云原生+ AI 多场联动,新产品、新体验、新探索

云栖3天,云原生 AI 20场主题分享,三展互动,为开发者带来全新视听盛宴 2024.9.19-9.21 云栖大会 即将上演“云原生AI”的全球盛会 展现最新的云计算技术发展与 AI技术融合之下的 “新探索” 一起来云栖小镇 见证3天的云原生AI 前沿探索…

828华为云征文 | 在华为云上通过Docker容器部署Elasticsearch并进行性能评测

目录 前言 1. 华为云X实例介绍及优势 1.1 柔性算力 1.2 vCPU和内存的灵活配比 1.3 成本效益与性能 2. 安装并运行 Docker 2.1 修改仓库配置文件 2.2 安装 Docker 2.3 启动 Docker 3. 使用Docker部署Elasticsearch 3.1 拉取Elasticsearch镜像 3.2 启动Elasticsearch…

SpringBoot整合ELK实现日志监控(保姆级教程)

新建SpringBoot项目 pom依赖 <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0" xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation"http://maven.…

[单master节点k8s部署]24.构建EFK日志收集平台(三)

Kibana Kibana是elasticsearch的可视化界面。 首先创建kibana的服务&#xff0c;yaml文件如下。k8s里的服务分为四种&#xff0c;clusterIP为仅仅为pod分配k8s集群内部的一个虚拟ip&#xff0c;用于集群内的pod通信&#xff0c;而不对外暴露。elasticsearch的服务就是cluster…

Redis 优化

目录 优雅的 key 删除 Bigkey 恰当的数据类型 批处理优化 Pipeline 集群下的批处理 服务端优化 持久化配置 慢查询 命令以及安全配置 内存安全和配置 内存缓冲区配置 集群最佳实践 集群带宽问题 集群还是主从 优雅的 key 删除 Bigkey Bigkey 内存占用较多&…

线程池和JUC

1. 线程池 1.1 线程状态介绍 当线程被创建并启动以后&#xff0c;它既不是一启动就进入了执行状态&#xff0c;也不是一直处于执行状态。线程对象在不同的时期有不同的状态。那么Java中的线程存在哪几种状态呢&#xff1f;Java中的线程 状态被定义在了java.lang.Thread.Stat…

微服务学习笔记之Docker

目录 认识Docker 安装Docker 安装yum工具 配置Docker的yum源 更新yum&#xff0c;建立缓存 安装Docker 启动并校验 配置镜像加速 Docker常见命令 命令 演示 给命令起别名 Docker数据卷 认识数据卷 数据卷常见命令 nginx的html目录挂载演示 数据卷挂载本地目录或…

强制类型转换

问题 最近在研读公司项目的时候发现一段很有意思的代码&#xff1a; if (a instanceof b) {B ent (B) a;if (!useGivenAuditAttributes) {ent.createdAt MyDateUtils.now();ent.createdBy AppContext.instance.loginUser.userId;ent.lastUpdatedAt ent.createdAt;ent.las…

如何把python(.py或.ipynb)文件打包成可运行的.exe文件?

将 Python 程序打包成可执行的 .exe 文件&#xff0c;通常使用工具如 PyInstaller。这是一个常用的 Python 打包工具&#xff0c;可以将 Python 程序打包成独立的可执行文件&#xff0c;即使没有安装 Python 也能运行。 步骤&#xff1a; 1. 安装 PyInstaller 使用 conda 安…

【shell脚本5】Shell脚本学习--条件控制

目录 条件判断&#xff1a;if语句 分支控制&#xff1a;case语句 条件判断&#xff1a;if语句 语法格式&#xff1a; if [ expression ] thenStatement(s) to be executed if expression is true fi 注意&#xff1a;expression 和方括号([ ])之间必须有空格&#xff0c;否…

centos7 配置 docker 国内镜像源

1.修改配置文件/etc/docker/daemon.json sudo vim /etc/docker/daemon.json2.增加或修改以下配置内容 {"registry-mirrors": ["https://dockerproxy.com","https://hub-mirror.c.163.com","https://mirror.baidubce.com","http…

谷歌浏览器如何更改下载文件存放的方式及其路径?

1、点击谷歌浏览器右上角的【三个点】 2、选择【设置】&#xff0c;再选择【下载内容】 3、打开【下载完成后显示下载内容】开关&#xff0c; 则&#xff1a;下载网页上的东西之后&#xff0c;会显示在【谷歌浏览器】的右侧&#xff0c;并显示具体下载文件在右侧&#xff1a;…

PR视频剪辑工具全指南:开启专业剪辑之旅

pr视频剪辑可以说是视频剪辑里的一把好手&#xff0c;就是如果你想在这方面深耕那还是掌握这个工具的使用比较方便。如果你只是刚入门&#xff0c;那也有不少可以快速帮你剪辑出片的工具。这次我介绍几款我用过的视频剪辑工具&#xff0c;助你开启视频剪辑大门。 1.福昕视频剪…

vue echarts tooltip动态绑定模板,并且处理vue事件绑定

先上代码&#xff1a; tooltip: {// 这里是车辆iconshow: true,// trigger: "item",// backgroundColor: "transparent",appendToBody: true,textStyle: {color: "#ffffff" //设置文字颜色},formatter: (params) > {const TruckTooltip Vue.…

Java-数据结构-排序(三) |ू・ω・` )

目录 ❄️一、归并排序&#xff1a; ☞ 基本思想&#xff1a; ☞ 代码&#xff1a; ☞ 归并排序的非递归方法&#xff1a; ❄️二、排序算法的分析&#xff1a; ❄️三、非基于比较的排序&#xff1a; ❄️总结&#xff1a; ❄️一、归并排序&#xff1a; ☞ 基本思想&#xf…

在一个.NET Core项目中使用RabbitMQ进行即时消息管理

为了在一个.NET Core项目中使用RabbitMQ进行即时消息管理&#xff0c;以下是详细的全程操作指南&#xff0c;包括安装、配置、编写代码和调试使用。 一、安装RabbitMQ 1. 安装Erlang RabbitMQ依赖Erlang&#xff0c;因此需要先安装Erlang。 Windows: 下载并运行Erlang安装…

人工智能-机器学习-深度学习-分类与算法梳理

目前人工智能的概念层出不穷&#xff0c;容易搞混&#xff0c;理清脉络&#xff0c;有益新知识入脑。 为便于梳理&#xff0c;本文只有提纲&#xff0c;且笔者准备仓促&#xff0c;敬请勘误&#xff0c;不甚感激。 请看右边目录索引 。 人工智能 三大派系 符号主义(Symbolists…

[附源码]宠物领养管理系统+SpringBoot

今天带来一款优秀的项目&#xff1a;宠物领养管理系统源码 。 系统采用的流行的前后端分离结构&#xff0c;内含功能包括"管理端"&#xff0c;“用户领养端”&#xff0c;“宠物管理”&#xff0c;“权限登录”等功能。 如果您有任何问题&#xff0c;也请联系小编&a…

keepalived+lvs集群

目录 一、环境 二、配置 1、master 1.在master上安装配置Keepalived 2.在master上修改配置文件 2、backup 1.在backup&#xff08;192.168.229.12&#xff09;上安装keepalived 2.在backup上修改配置文件 3、master和backup上启动服务 4、web服务器配置 1.web1和web…

使用Java基于GeoTools读取Shapefile矢量数据属性信息-以某市POI数据为例

前言 在之前的博客中&#xff0c;我们讲过在GDAL中如何读取空间数据的属性和数据信息&#xff0c;也简单的讲过如何在GeoTools中读取Shapefile文件的属性信息和数据信息。对于空间矢量数据库&#xff0c;就像我们传统的二维数据库的表字段和表数据的关系&#xff0c;在研究表数…