ISCSLP 2022 | NPU-ASLP实验室8篇论文被录用

news2025/8/13 22:40:08

作为语音处理技术领域的旗舰国际会议,ISCSLP2022(International Symposium on Chinese Spoken Language Processing)将于12月11-14日在新加坡举办。

西工大音频语音与语言处理研究组(ASLP@NPU)本届会议将携合作伙伴宣读论文8篇,涉及智能语音处理领域的众多研究方向,包括语音识别、说话人日志、语音合成、语音转换等。论文的合作单位包括:腾讯美团传音控股马上金融等。此外在本届会议上,实验室联合希尔贝壳天津大学南洋理工大学WeNet开源社区理想汽车等多家单位成功举办智能座舱语音识别挑战赛(ICSRC)。值得一提的是,实验室参赛队获得中英混语音识别挑战赛(CSASR)第二名,同时实验室与传音控股合作获得对话短语音说话人日志挑战赛(CSSD)第三名的优异成绩。以下是本届会议发表论文的相关信息。

#1

AccentSpeech: Learning Accent from Crowd-sourced Data for Target Speaker TTS with Accents

作者列表:张雍茂,王智超,杨培基,孙闳绅,王智圣,谢磊

合作单位:腾讯IEG

论文摘要:从众包数据中学习口音来让目标说话人带有口音是一种可行的构建带口音语音合成系统的途径。为了实现这个目的,有两个具有挑战性的问题需要解决。第一,如果直接使用质量较低的众包口音数据和目标说话人的高质量非口音数据来训练口音迁移模型会导致合成质量明显低于目标说话人的原始数据。为了缓解这个问题,我们采用以神经网络瓶颈特征(BN)为中间特征的语音合成方案,将语音合成的声学模型分为Text-to-BN(T2BN)和BN-to-Mel(BN2Mel)来分别建模口音和目标说话人音色,同时基于神经网络提取的BN具有噪声鲁棒性。第二,如果直接使用众包数据训练上述两段式模型将会导致目标说话人的发音韵律较差,这是由于众包数据都是由非专业播音的普通人提供的。为了解决这个问题,我们将两段式的模型更新为三段式模型,使用目标说话人的高质量数据训练上述T2BN和BN2Mel模块,并在两个模块中间加入一个BN-to-BN(BN2BN)模块来进行口音迁移任务。我们通过数据扩充的方式生成了非口音的BN和带有口音的BN平行数据来训练BN2BN模块。最终,我们提出的三段式模型实现了合成目标说话人的带口音的语音,因为合成语音的韵律是从专业播音的目标说话人数据中学习的,所以最终语音的发音韵律较好。我们提出的AccentSpeech的效果在中文口音迁移任务上得到了验证。

论文Arxiv网址:

https://arxiv.org/abs/2210.17305

#2

End-to-End Voice Conversion with Information Perturbation

作者列表:谢启聪,阳珊,雷怡,谢磊,苏丹

合作单位:腾讯TEG

论文摘要:语音转换的目标是将源语音中的音色转换目标说话人音色,同时保持源语音中的内容信息不变。然而,目前的方法在说话人相似度和韵律方面有所欠缺,而且由于声学模型和声码器之间的特征不匹配的问题,导致了的转换语音质量的下降。本文利用信息扰动的方式,提出一种完全端到端的方法来进行高质量的语音转换。首先采用信息扰动来去除源语音中与说话人相关的信息,以解耦说话人的音色信息和语言内容信息。为了更好地将源语音的韵律转移到目标语音上,本文引入了说话人相关的韵律编码器,来保持和源说话人的一致的韵律模式。通过直接对语音样点进行建模提升音质,避免了借助梅尔谱的中间表征而带来的声学模型和声码器之间的特征不匹配的问题。最后,通过连续的说话人空间建模,使模型能够实现Zero Shot的语音转换。实验结果表明,所提出的端到端方法在可懂度、自然度和说话人相似度方面明显优于其他对比模型。

论文Arxiv网址:

https://arxiv.org/abs/2206.07569

#3

Multi-speaker Multi-style Text-to-speech Synthesis with Single-speaker Single-style Training Data Scenarios

作者列表:谢启聪,李涛,王新升,王智超,谢磊,虞国桥,万广鲁

合作单位:美团

论文摘要:语音合成的风格迁移主要让说话人合成该说话人本不具有的风格的语音,比如,让普通说话人合成故事、新闻、广播、朗读等等风格语音。为了使合成系统能够学习风格信息,以往的研究所使用的语料是一位说话人要具备多种风格的语料,这将对说话人提出较高的要求。本文为了解决以上的问题,设计了单人单风格场景下的风格迁移方案,训练语料的每位说话人只要具备一种风格即可。同时本文对音素级别的细粒度韵律进行控制,从而更容易实现对风格强度进行控制。

论文Arxiv网址:

https://arxiv.org/abs/2112.12743

#4

Robust MelGAN: A robust universal neural vocoder for high-fidelity TTS

作者列表:宋堃,从坚,王新升,张雍茂,谢磊,蒋宁,吴海英

合作单位:马上金融

论文摘要:在当前主流的两段式TTS框架中,理想情况是拥有一个通用声码器,其只需要训练一次而不需要对目标数据进行微调,并对声学模型生成的mel谱具备鲁棒性。基于此目的,我们在multi-band MelGAN的基础上作出改进,提出Robust MelGAN模型,缓解multi-band MelGAN在对接声学模型生成的Mel谱而产生的电音问题,并提高了其泛化能力。首先,我们在生成器中引入了细粒度的网络dropout策略,通过将语音信号中的周期和非周期成分分离并对非周期成分施加网络dropout策略,避免电音的同时保证了稳定的音色相似度。为了提高模型的泛化能力,我们使用了多种数据增强方法以扩充判别器中的虚假数据,包括谐波偏移、谐波噪声和相位噪声。实验表明,Robust MelGAN作为通用声码器,可以适配基于多种数据训练的声学模型,保持了良好的音质。

论文Arxiv网址:

https://arxiv.org/abs/2210.17349

#5

AdaVITS: Tiny VITS for Low Computing Resource Speaker Adaptation

作者列表:宋堃,薛鹤洋,王新升,从坚,张雍茂,谢磊,杨兵,张雄,苏丹

合作单位:腾讯CSIG

论文摘要:说话人自适应任务旨在预训练的TTS模型上使用少量的目标说话人数据进行自适应而获得目标说话人的TTS系统。在这一任务上已经有很多相关工作,但是很少有针对于低计算资源场景的轻量化说话人自适应模型。本文提出一种基于VITS模型的轻量化说话人自适应模型AdaVITS。为了有效的减少VITS模型的参数和计算量,我们首先提出了一种基于逆傅立叶变换 (iSTFT) 的解码器以替代原始结构中计算量占比较大的上采样网络解码器;其次我们引入NanoFlow中的共享概率估计流 (flow) 模块替代原始的流模块,从而减少参数量;另外我们在文本编码器中引入线性注意力机制以代替原始的点积注意力从而降低计算量。为了提高VITS模型的稳定性,我们使用PPG特征作为中间语言学表征监督文本到谱特征的学习过程。实验表明,在说话人自适应任务上,AdaVITS可以生成稳定自然的语音,并且只有8.97M 的模型参数量和 0.72 GFlops的计算量。

论文Arxiv网址:

https://arxiv.org/abs/2206.00208

#6

The NPU-ASLP System for The ISCSLP 2022 Magichub Code-Swiching ASR Challenge

作者列表:梁宇颢,陈培坤,俞帆,朱新发,徐天翼,谢磊

论文摘要:本文描述了西工大ASLP实验室在ISCSLP2022中英混语音识别挑战赛上提交的系统方案。在这次竞赛中,我们首先探索了bi-encoder,language-aware encoder(LAE)与mixture of experts(MoE)等多种ASR模型结构以及训练策略。为了增强系统的语言建模能力,我们进一步尝试了internal language model (ILM)与long context language model (LCLM)。此外,我们使用了多种数据扩充方式包括变速、变调、音频编解码、语音合成来克服竞赛数据稀缺的问题。最后我们使用ROVER的方式融合了不同模型的识别结果。我们提交的系统在测试集上排名第二,实现了16.87%的MER。

论文Arxiv网址:

https://arxiv.org/abs/2210.14448

#7

TSUP Speaker Diarization System for Conversational Short-phrase Speaker Diarization Challenge

作者列表:庞博文,赵欢,张高升,杨啸悦,孙杨,张丽,王晴,谢磊

合作单位:传音控股

论文摘要:本文描述了西工大和传音控股合作队伍在ISCSLP 2022会话短句说话人日志(CSSD)竞赛中使用的方案。该竞赛重点关注短句对话场景,并采用了一种新的评价指标CDER。在这次竞赛中,我们探索了三种经典的说话人日志方案,分别是基于谱聚类(SC)系统、基于目标说话人检测(TS-VAD)的系统以及端到端系统。我们的主要结论总结如下。首先,在新的CDER指标下,基于谱聚类的传统方法比其他两种方法效果更好。其次,对于所有三种类型的说话人日志方案,调整超参对于CDER指标至关重要。比如当分割子段的长度设置得更长时,CDER会变得更小。最后,通过DOVER-LAP的多系统融合并没有取得更理想的结果。我们提交的系统最终在竞赛结果中排名第三。

论文Arxiv网址:

https://arxiv.org/abs/2210.14653

#8

The ISCSLP 2022 Intelligent Cockpit Speech Recognition Challenge (ICSRC):Dataset, Tracks, Baseline and Results

作者列表:张奥, 俞帆, 黄凯勋,谢磊, 王龙标, Eng Siong Chng, 卜辉, 张彬彬, 陈伟, 徐昕

合作单位:天津大学,南洋理工大学,希尔贝克,理想汽车,WeNet社区

论文摘要:本文总结了ISCSLP2022车载语音识别挑战赛(ICSRC)的产出。我们首先阐述了这个竞赛的必要性并介绍竞赛数据集。本次竞赛的数据集在新能源汽车上录制,覆盖智能座舱的声学场景和语音交互的语言特点。之后,我们介绍本次竞赛的赛道设置,本次竞赛分为模型大小受限和不受限两个赛道,分别对应车载端侧和云侧语音识别场景。最后我们总结竞赛的结果和提交系统所采用的主要方法。

论文Arxiv网址:

https://arxiv.org/abs/2211.01585

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/33206.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MCE | 曲贝替定——来自海洋的抗软组织肿瘤化合物

目前,常用于 STS 的化疗药物为蒽环类药物如阿霉素 (ADM)、异环磷酰胺(IFO) 、环磷酰胺 (CTX) 、顺铂 (DDP) 等。但是,为了解决部分患者不适合利用蒽环类和酰胺类药物治疗,或利用这些药物治疗无效的问题,仍需寻找新的药物治疗方案。…

用gdb调试有问题的程序:练习使用gcc编译器和gdb调试器

内容 1.用gdb调试有问题的程序:练习使用gcc编译器和gdb调试器; 2.练习使用make工程管理器。 实操流程: (1)编制greet.c文件。 此代码的原意为倒序输出main函数中定义的字符串,但…

JNDI注入的理解、JDK给出的修复

RMI RMI(Remote Method Invocation):一种执行远程调用的Java API。RMI的目的是使在不同计算机上运行的对象(Object)之间的调用行为类似于本地调用。 RMI机制:服务器(Server)应实现一定的功能并将其注册到注册表(Registry)中,客户端(Client)应在注册表的命名空间(Naming spac…

RabbitMQ入门教程(安装,管理插件,Publisher/Consumer/交换机/路由/队列/绑定关系,及如何保证100%投递等)

RabbitMQ入门教程(安装,管理插件,Publisher/Consumer/交换机/路由/队列/绑定关系,及如何保证100%投递等) 1. RabbitMQ简介及AMQP协议 开源的消息代理和队列服务器。基于AMQP(Advanced Message Queuing Pr…

矢量网络分析仪如何校准?安泰测试来助力

要想学会测试, 首先要学会校准! 对矢量网络分析仪的校准是非常重要的一个步骤,能够提高仪器的测量精度。今天安泰测试就给大家分享一下矢量网络分析仪的校准操作步骤: 一、单端口校准 校准目的: 通过单端口校准可以消除该端口的反射跟踪误差、…

[附源码]SSM计算机毕业设计教学辅助系统JAVA

项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM mybatis Maven Vue 等等组成,B/S模式 M…

双层神经网络实现非线性回归——机器学习

目录 一、算法思想 二、算法原理 三、算法分析 四、源程序代码 五、运行结果及分析 一、算法思想 在两层神经网络之间,必须有激活函数连接,从而加入非线性因素,提高神经网络的能力。所以,我们先从激活函数学起,一类…

线代——求逆矩阵的快捷方法

通常,求逆矩阵有两种方法: 方法一: 方法二: 但是,对于特殊矩阵,如: 1、二阶矩阵 A[abcd]A \begin{bmatrix} a & b\\ c & d \end{bmatrix}A[ac​bd​],其逆矩阵 A−11ad−bc[d−b−ca…

FienReport在线报表工具-大数据集导出示例

前言 在企业管理中,报表可以以图表等简洁的方式向用户显示数据,从而提高工作效率。许多公司紧跟信息技术的潮流,已经应用了报表软件工具。“我们企业想用一个报表工具,你有推荐吗?”这是这两年被问到最多的问题&#…

MySQL 进阶 怎么去了解MySQL的架构原理

前言 在了解 MySQL 原理之前,对我而言 MySQL 就是一个黑盒子,我写的SQL 语句通过服务发送给 MySQL 数据库,然后数据库就执行 SQL 语句,返回一些查询结果或做一些操作。然后就没然后了。。。再深入一点,就是知道某些 S…

机器学习-聚类算法

机器学习-基础知识 机器学习-线性回归 机器学习-逻辑回归 机器学习-聚类算法 机器学习-决策树算法 机器学习-集成算法 机器学习-SVM算法 文章目录聚类算法1. K-Means算法1.1. 理论基础1.2. 具体代码1.2.1. 数据集1.2.2. 自定义k-means算法类1.2.3. 测试模块1.3. 效果展示1.3.1.…

Flink 多流转换

多流转换分流使用侧输出流基本合流操作联合(Union)连接(Connect)基于时间的合流——双流联结(Join)窗口联结(Window Join)间隔联结(Interval Join)窗口同组联…

C#界面里Form.IsMdiContainer 属性的使用

C#界面里Form.IsMdiContainer 属性的使用 由于屏幕的局限,以及软件需求的复杂,并且还需要方便使用, 面对这样的任务,就需要好好地考虑使用多窗口的界面设计。 因为每一个窗口可以实现不同的功能,这样方便把相关的功能放在一起,不同的功能分为不同的窗口。 这样既可解决屏…

PC_DRAM

动态 RAM(DRAM)的刷新 刷新的过程实质上是先将原存信息读出,再由刷新放大器形成原信息并重新写入的再生过程 根据这个特点,可以估计刷新电路执行趟耗费的时间大致和访存时间相当 刷新放大器及读放大器均起此作用 由于存储单元被访问是随机的,有可能某些存储单元长期得不到访问…

OceanBase 4.0 all-in-one 版本如何离线升级 obd

今天遇到了一个问题,现象是这样的。 问题出现的原因: 在测试 ob 4.0 allinone 版本时,我用了自动部署的方式(autodeploy),发现部署完的集群无法启动,错误原因可以参考这里:https:/…

three.js之缓冲类型几何体顶点

文章目录简介构成代码顶点构成图形核心代码顶点的位置与颜色BufferAttribute颜色差值法向量不设置法向量顶点索引不复用顶点复用顶点专栏目录请点击 简介 顶点一般使我们在创建模型的时候使用的,他一般对应buffer类型的几何体,使用BufferGeometry创建 点…

有效备考浙大MEM的五个好习惯建议

作为去年上岸浙大mem项目的学长,很多身边计划备考的朋友都在咨询如何才能一年上岸,我在去年拿到了203分的成绩,在不影响工作和生活的前提下,自己认为有效备考浙大mem项目要基本做到五大好习惯,特别针对我们在职人群&am…

软件测试面试题及答案 这个可以免费白嫖的题库不要错过了

对于很多新手软件测试人来说,除了掌握扎实的专业技能之外,你还需要一份个互联网软件测试工程师面试题库才能在万千面试者中杀出重围,成功拿下offer。 一般软件测试的面试分为三轮:笔试,HR面试,技术面试。前…

2023最新SSM计算机毕业设计选题大全(附源码+LW)之java社区疫情防控管理系统nt4k1

最近发现近年来越来越多的人开始追求毕设题目的设创、和新颖性。以往的xx管理系统、xx校园系统都过时了。大多数人都不愿意做这类的系统了,确实,从有毕设开始就有人做了。但是很多人又不知道哪些毕设题目才算是新颖、创意。太老土的不想做,创…

HTML学生个人网站作业设计:宠物网站设计——宠物网站带会员登陆表单验证功能7页

⛵ 源码获取 文末联系 ✈ Web前端开发技术 描述 网页设计题材,DIVCSS 布局制作,HTMLCSS网页设计期末课程大作业 |宠物网页设计 | 保护动物网页 | 鲸鱼海豚主题 | 保护大象 | 等网站的设计与制作 | HTML宠物网页设计 | HTML期末大学生网页设计作业,Web大学…