【论文】FunAudioLLM：一个旨在增强人类与大型语言模型（LLMs）之间自然语音交互的模型家族

研究背景

1.研究问题：这篇文章要解决的问题是如何增强人类与大型语言模型（LLMs）之间的自然语音交互。具体来说，研究集中在语音识别、情感识别和音频事件检测（多语言）以及语音生成（多语言、零样本学习、跨语言语音克隆和指令跟随能力）两个方面。

2.研究难点：该问题的研究难点包括：实现低延迟的多语言语音识别；在多语言环境中进行高精度的语音识别；生成自然且具有情感表达的多语言语音；以及在零样本情况下进行语音克隆和指令跟随。

3.相关工作：该问题的研究相关工作包括GPT-4o、Gemini-1.5等高性能语言模型的发展，以及高精度语音识别、情感识别和语音生成技术的进步。

研究方法

这篇论文提出了FunAudioLLM框架，用于解决人类与LLMs之间的自然语音交互问题。具体来说，

1.SenseVoice模型：SenseVoice模型用于语音理解，支持多语言语音识别、情感识别和音频事件检测。SenseVoice-Small是一个非自回归的编码器模型，适用于快速语音理解，支持五种语言（中文、英语、粤语、日语和韩语），推理延迟小于80ms，速度比Whisper-small快5倍以上，比Whisper-large快15倍以上。SenseVoice-Large是一个自回归的编码器-解码器模型，支持超过50种语言的语音识别，特别在中文和粤语上表现优异。

2.CosyVoice模型：CosyVoice模型用于语音生成，支持多语言语音生成，具有零样本学习、跨语言语音克隆、情感共振语音生成和指令微调等功能。CosyVoice-base-300M模型专注于准确表示说话人身份、零样本学习和跨语言语音克隆。CosyVoice-instruct-300M模型通过指令文本生成情感丰富的语音，并允许对说话人身份、说话风格等进行细致调整。CosyVoice-sft-300M模型在七个多语言说话人上进行微调，准备立即部署。

3.语义语音分词器：为了提高系统性能和减少对高质量数据的需求，论文提出了一种监督语义语音分词器S3S3。该分词器基于预训练的SenseVoice-Large模型，在编码器的初始六层之后引入一个向量量化器，增强了时间信息。

4.零样本上下文学习和指令微调：CosyVoice模型展示了零样本上下文学习能力，允许通过简短的参考语音样本复制任意声音。此外，CosyVoice-instruct模型通过指令文本进一步增强了可控性，支持说话人身份、说话风格和细粒度副语言特征的控制。

实验设计

1.数据集：SenseVoice模型的训练数据集包括约300,000小时的音频数据，覆盖五种语言（中文、粤语、英语、日语和韩语）。为了进一步提升SenseVoice-Large的多语言能力，额外整合了100,000小时的多语言数据。CosyVoice模型的训练数据集包括多种语言，使用内部工具进行语音检测、信噪比估计、说话人分离和分离。

2.评估指标：多语言语音识别使用字符错误率（CER）和词错误率（WER）进行评估。情感识别使用未加权平均准确率（UA）、加权平均准确率（WA）、宏平均F1分数（F1）和加权平均F1（WF1）进行评估。音频事件检测使用F1分数进行评估。

3.实验设置：在A800机器上进行推理效率评估，解码批处理大小为1。对于编码器-解码器模型，使用束搜索解码，束大小为5。

结果与分析

1.多语言语音识别：SenseVoice-S和SenseVoice-L在大多数测试集上显著优于Whisper模型，特别是在粤语、加泰罗尼亚语和马哈拉施特拉语上表现优异。SenseVoice-S的推理延迟比Whisper-small快5倍以上，比Whisper-large快15倍以上。

2.情感识别：SenseVoice-Large在所有测试集和所有指标上表现最佳，SenseVoice-Small在大多数数据集上也优于其他基线模型。

3.音频事件检测：SenseVoice模型在音频事件分类或检测方面表现良好，尽管BEATS和PANNs可能在某些任务上具有更高的F1分数。

4.语义信息保留：S3分词器在中文和英语测试集上展示了强大的识别性能，在Common Voice zh-CN集上，S3分词器比Whisper-Large V3模型的错误率降低了4.14%。

5.生成质量：CosyVoice在英语和中文生成质量评估中表现出色，内容一致性和说话人相似性均达到人类水平。通过ASR重排序，CosyVoice的WER显著降低。

6.情感控制：CosyVoice-instruct在情感控制方面表现优异，情感指令输入下的情感识别准确率显著提高。

总体结论

这篇论文提出的FunAudioLLM框架通过SenseVoice和CosyVoice两个创新模型，显著提升了人类与LLMs之间的自然语音交互能力。SenseVoice模型在多语言语音识别和情感识别方面表现优异，而CosyVoice模型在多语言语音生成和控制方面具有显著优势。FunAudioLLM框架的应用包括语音翻译、情感语音聊天、互动播客和富有表现力的有声书叙述，推动了语音交互技术的前沿。