ICASSP 2022：语音转换与数据增强技术新突破

news2026/3/27 22:52:30

某机构文本转语音团队在ICASSP 2022的研究论文聚焦于语音转换和数据增强——有时两者兼而有之。作者Andrew Breen2022年5月17日阅读时长6分钟相关出版物Voice Filter使用语音转换作为后处理模块的少样本文本转语音说话人自适应Cross-speaker style transfer使用数据增强的文本转语音跨说话人风格迁移Distribution augmentation用于低资源情感文本转语音的分布增强Text-free non-parallel many-to-many voice conversion使用归一化流的无文本非并行多对多语音转换Voice Filter使用语音转换作为后处理模块的少样本文本转语音说话人自适应在《Voice Filter: Few-shot text-to-speech speaker adaptation using voice conversion as a post-processing module》一文中某机构TTS团队解决了少样本说话人自适应问题即仅通过少量训练样本来学习新的合成语音。该论文将问题重新定义为学习一个语音转换模型该模型应用于高质量TTS模型的输出这是对现有少样本TTS范式的一个概念性转变。该方法的关键在于用于将TTS模型输出转换为新语音的“语音过滤器”是使用TTS模型自身创建的合成数据进行训练的。该TTS模型具有时长可控性意味着输入文本被编码以指示每个音素在输出语音中应具有的时长。这使研究人员能够创建两个并行的训练语料库。一个语料库包含来自120个不同说话人的真实训练样本。另一个语料库是由TTS模型生成的合成语音但其时长与多说话人样本的时长相匹配。语音过滤器在这两个并行语料库上进行训练然后对于少样本学习只需在新说话人上对其进行微调。在实验中研究人员发现这种方法产生的语音质量与使用30倍数据量训练的传统模型相当。分布增强用于低资源情感文本转语音《Distribution augmentation for low-resource expressive text-to-speech》考虑的是新语音缺乏训练数据的情况。目标是重新排列现有示例的文本以生成新示例并重新组合相应语音样本的片段以生成新样本。这不会增加训练目标的声学多样性但确实增加了训练输入的 linguistic 多样性。为了确保合成的训练示例在句法上不会变得过于不连贯研究人员为输入文本构建了句法分析树然后交换不同树之间句法等效的分支。交换声学信号的相应部分需要文本和信号之间良好的对齐这可以通过现有的强制对齐模型来实现。训练期间为确保最终的TTS模型不会对合成示例产生过度的偏向研究人员还加入了一个特殊的输入标记用于指示两个现有样本融合的点。期望模型能够学会优先考虑真实样本内部的音素序列而不是跨越融合样本边界的音素序列。在推理时该标记的值在所有输入上简单地设置为0。该模型语音输出的质量由60名人类评估者进行评估他们在五个不同的数据集上将其与基线模型的语音输出进行比较。总体而言新模型的输出在所有方面都获得了比基准模型输出更高的分数。研究领域对话式人工智能标签文本转语音TTS少样本学习合成数据生成ICASSPFINISHED更多精彩内容请关注我的个人公众号公众号办公AI智能小助手或者我的个人博客 https://blog.qife122.com/对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号网络安全技术点滴分享

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2433203.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！