报名进行中 | ISCSLP2024 对话语音克隆挑战赛(CoVoC)

news2025/6/26 20:52:14

晴数智慧(Magic Data)联合西北工业大学音频语音与语言处理研究组(ASLP@NPU)、新加坡资讯通讯研究院(I2R)、深圳大数据研究院(SRIBD)、香港中文大学(深圳)等多家单位在2024年中文口语语言处理国际会议(ISCSLP2024)上推出对话语音克隆挑战赛(Conversational Voice Clone Challenge — CoVoC),在开源1万小时的WenetSpeech4TTS数据集和180小时的普通话自然对话语音数据的基础上,参加赛事将获得100小时的高质量对话数据。快来报名参赛吧!

背景

文语转换(TTS)旨在生成听起来尽可能自然且类似人类的语音。随着语音合成技术的飞速发展,合成音频的质量和自然度得到了显著的提高,促进了TTS系统在诸多场景中的广泛应用。大规模数据和大模型(LLM、Diffusion)的应用(例如:VALL-E,NaturalSpeech,TorToise等)让零样本TTS (Zero-shot TTS)在生成质量以及音色相似度上取得显著突破,引起了学术界和工业界的广泛关注。同时,合成语音的自然度达到真人水平。OpenAI、11Labs、微软和字节等科技巨头均已上线超自然的对话TTS。然而,语音生成中自发行为和对话方面尚未得到充分研究。具体而言,主要挑战在于如何有效控制生成语音中的韵律细节,以区分自发语音和朗读语音间的多样化和复杂自发行为。大规模TTS系统具有强大的上下文学习能力,有望在零样本TTS以及对话场景中取得更好的效果。但在零样本TTS研究领域,当下各个方案采用的训练/测试数据集无法完全对齐,以及缺乏效果的标准评估。这一问题阻碍了不同系统间的直接对比,使得公平评估各种系统的性能变得十分迫切。

为了推动零样本场景下富有表现力的、具有自发行为风格的语音合成技术的发展,我们在2024年中文口语语言处理国际会议(ISCSLP2024)上推出对话语音克隆挑战赛(Conversational Voice Clone Challenge — CoVoC)。该赛事基于多个训练数据集,包括1万小时的WenetSpeech4TTS数据集,180小时的普通话自然对话语音数据以及100小时的高质量口语对话数据。此外,我们将提供一个标准测试数据集,包括多个克隆说话人和多样化的文本,旨在提供一个中文音色克隆的测试基准。

ISCLP2024官网:http://www.iscslp2024.com

CoVoC竞赛官网:https://www.magicdatatech.com/iscslp-2024

数据

竞赛组织方为参赛者在不同阶段提供四个音频/文本数据集。所有音频数据将采用单声道WAV格式,采样率为16KHz,采用16位编码。

在训练阶段,参赛者可以使用大规模的WenetSpeech4TTS数据集,以及两个较小规模的数据集,即MAGICDATA和HQ-Conversations。参赛者可以自由地利用这些数据集进行模型训练或微调。

  • WenetSpeech4TTS:是一个源自开源的WenetSpeech数据集处理得到的适合TTS任务的多领域普通话语料库。针对TTS任务,通过调整片段边界、增强语音质量、去除多说话人片段等一系列操作对 WenetSpeech 进行了处理。经过更精确的语音识别获取文本标签,以及质量过滤之后,得到共包含12800小时的音频及对应文本标签,根据数据质量划分为Premium、Standard、Basic和Rest多个子集。

数据获取链接:https://huggingface.co/datasets/Wenetspeech4TTS/WenetSpeech4TTS

  • MAGICDATA:180小时的移动端录制的对话语音数据。来自国内不同地域的663说话人参与录制。录音在安静的室内环境中进行。所有语音数据都经过人工标注,并由专业检查员验证以确保标注质量。

数据获取链接:https://www.openslr.org/123/

  • HQ-Conversations: 该数据集包含200名说话人100小时高质量对话数据,其中男性75名,女性125名。这些对话涉及日常生活场景,自然且富有表现力。所有语音数据都经过人工标注,并由专业检查员验证以确保标注质量。

在竞赛评估阶段,参赛者需要在Clone-Speaker数据集上测试其模型的零样本音色克隆性能,生成Test-Text内目标文本对应的语音。

  • Clone-Speaker:我们将为竞赛评估提供20个测试说话人,每个说话人若干秒钟语音作为克隆的Prompt。

  • Test-Text:我们将提供全面测试文本,包括普通测试文本、具有自发行为的对话文本等。

赛道设置

CoVoC挑战设有两个赛道。

  • 限制赛道:在训练阶段只允许使用上述提及的语料库。如果系统中使用了预训练模型,也必须是开源模型,并且使用的模型情况必须在最终提交中清楚地说明。在这个赛道中,排名靠前的团队将被邀请提交论文到ISCSLP会议中。

  • 无限制赛道:除了我们提供的数据外,其他开源或内部语料库都可以在训练阶段使用。参赛者应该在与提交的技术报告中清楚描述所使用的数据规模和情况。参与这个赛道的团队需要填写一个表格,提供有关方案的详细信息。

规则

所有参赛者应遵守以下规则:

  • 在竞赛中,发布的数据集仅供参赛者在竞赛期间和赛后研究目的使用,不允许商业使用。主办方将在赛后开源数据,数据的使用应遵守相应的开源许可。

  • 在限制赛道中可以使用公开可用的预训练模型,而额外的训练数据只能在无约束赛道中使用。

  • 最终解释权归竞赛组织者所有。组织者保留更改规则的权利。在特殊情况下,竞赛组织者将负责协调解释。

评估

主观评估

我们会组织专业测听人员进行平均意见分数(MOS)测试,以评估语音质量、语音自然度、说话者相似度和语音自发风格。主观评估标准:

  • 语音自然度(Naturalness):在每次测评中,测听人员听取每个样本,并从1【完全不自然】到5【完全自然】的分数中选择评分。

  • 语音质量(Quality):在每次测评中,测听人员将听取一个样本,并选择一个代表语音听起来质量好坏的分数,范围从1【质量极低】到5【质量高】。

  • 说话者相似度(Similarity):在每次测评中,测听人员将听取原始说话人的两个参考样本和一个合成样本,他们将给出一个分数,代表合成语音与参考样本中的说话人声音之间的相似程度,分数从1【听起来像不同人的声音】到5【听起来像同一个人的声音】。

  • 语音自发风格(Spontaneous):在这个测试中,我们会使用含有自发行为的文本进行测试。测听人员将听取每个样本,并在1【语音中的自发行为效果不好】到5【语音中的自发行为效果很好】的分数上选择一个评分。

客观评估

  • 字符错误率(CER):对合成语音进行语音识别,识别结果与真实抄本计算字错误率。

  • 说话人嵌入余弦相似度(SECS):通过提取说话者嵌入并计算余弦相似度来得到SECS度量。

客观评估结果将对所有提交团队进行评估和发布。主观评估仅针对客观得分高的前若干提交队伍进行。

时间线

时间议程
2024年6月3日竞赛注册开放和HQ-Conversations数据发布
2024年6月10日基线系统发布
2024年6月30日评估阶段开始;Clone-Speaker和Test-Text数据发布;挑战注册截止日期
2024年7月2日评估结束;测试音频和系统描述提交截止日期
2024年7月12日向参赛者发布评估结果
2024年7月20日ISCSLP2024论文提交截止日期(仅限受邀团队)

注册参赛

注册ISCSLP CoVoC挑战,参赛者需要在2024年6月30日之前填写以下Google表单:

https://docs.google.com/forms/d/e/1FAIpQLSf-vZzn9DMEaYyIGvKE3qXpTLeTJ74aAnZYPbEftLTyCKE7sw/viewform?usp=pp_url

欢迎来自学术界和工业界的团队参加。

如果您在注册过程中遇到任何问题,请联系 xkx@mail.nwpu.edu.cn 寻求帮助。

组织者

  • 谢磊,西北工业大学

  • 张晴晴,晴数智慧

  • 王帅,深圳大数据研究院(SRIBD)

  • 罗磊,晴数智慧

  • 董明会,新加坡资讯通讯研究院 (I2R)

  • 薛浏蒙,香港中文大学(深圳)

  • 姚继珣,西北工业大学

  • 郭大可,西北工业大学

  • 李函昭,西北工业大学

  • 夏康翔,西北工业大学

声明

本次竞赛仅供促进学术研究之用,我们反对克隆声音的非法用途,同时积极推动Deepfake检测方面的研究。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1822739.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

FRP 内网穿透 | 实现远程访问与安全管理

唠唠闲话 内网穿透简介 在互联网上,两个不同主机进行通信需要知道对方的 IP 地址。由于世界人口和设备众多,IPv4 资源相对紧缺,因此绝大部分情况下是通过路由器或交换机转换公网 IP 后才上网。 位于路由器或交换机后的设备通常是内网设备&…

Kettle根据分类实现Excel文件拆分——kettle开发31

将整理好的一份供应商付款明细Excel文件,按供应商拆分成多个Excel文件。 实现思路 本文我们首先将供应商付款明细表,按照“名称”拆分成多份Excel文件。拆分Excel文件打算用两个转换实现,一个用来将Excel数据读取到参数中,另外一…

2.4G低功耗无线收发SOC芯片-SI24R03

随着物联网产业对集成度的需求越来越高, 也在不断地完善公司产品生态。 “射频MCU”产品组合--无线SOC芯片(MCU),简化了系统设计。只需要少量的外围器件,用户即可实现产品的开发,有效减少了PCB板的占用…

热门开源项目推荐: diffusionbee

随着AI技术的快速发展,深度学习和机器学习已经成为各领域的热门话题。Stable Diffusion是一种强大的深度学习模型,它能够在图像生成和处理方面展现出惊人的效果。为了让更多用户能够轻松地使用Stable Diffusion,Diffusion Bee应运而生&#x…

Instagram怎么打不开?IP被限制怎么解决?

Instagram作为跨境电商的主要推广平台之一,账号安全关系重大。了解并掌握账号管理及防IP封禁的知识可以有效防止Ins账号被限制访问。因此本文将重点介绍 Instagram账号的管理技巧以及如何通过代理IP等工具防封禁,帮助新手用户更好地享受这个社交平台的乐…

python django初步搭建(一)

记录一次简单的python django使用,后续调用api相关的暂时不想写。。。 一、环境 windows python 3.11.7 django 二、初步搭建 2.1 新建空文件夹 为了方便本次记录,新建了一个空的文件夹来使用。 直接在这里输入cmd 然后按下回车 2.2 安装virtual…

【小米商城】页面编写笔记(自用)

页面展示&#xff1a; 代码&#xff1a; <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>Title</title><style>body{margin: 0;}img{width:100%;height: 100%;}.header{/*height: 38px;*…

Linux开机自启/etc/init.d和/etc/rc.d/rc.local

文章目录 /etc/init.d和/etc/rc.d/rc.local的区别/etc/init.dsystemd介绍 /etc/init.d和/etc/rc.d/rc.local的区别 目的不同&#xff1a; /etc/rc.d/rc.local&#xff1a;用于在系统启动后执行用户自定义命令&#xff0c;适合简单的启动任务。 /etc/init.d&#xff1a;用于管理…

Vulnhub-DC-5

靶机IP:192.168.20.139 kaliIP:192.168.20.128 网络有问题的可以看下搭建Vulnhub靶机网络问题(获取不到IP) 信息收集 nmap扫下端口及版本 dirsearch扫下目录 LinuxphpNginx 环境 我们再去看前端界面&#xff0c;发现在contact界面有能提交的地方&#xff0c;但是经过测试不…

开源项目QAnything:全能型本地知识库问答系统

在当今信息爆炸的时代&#xff0c;如何高效地管理和检索大量数据成为了一个重要课题。网易有道推出的开源项目QAnything&#xff0c;正是为了解决这一问题而生。QAnything是一个本地知识库问答系统&#xff0c;支持多种文件格式和数据库&#xff0c;允许用户在离线状态下进行安…

“探索机器学习的多面世界:从理论到应用与未来展望“

博客主页&#xff1a;誓则盟约系列专栏&#xff1a;机器学习 专栏关注博主&#xff0c;后期持续更新系列文章如果有错误感谢请大家批评指出&#xff0c;及时修改感谢大家点赞&#x1f44d;收藏⭐评论✍ 目录 一、机器学习基础理论 1.机器学习的定义与分类 监督学习 无监督学…

[c++刷题]贪心算法.N01

题目如上: 首先通过经验分析&#xff0c;要用最少的减半次数&#xff0c;使得数组总和减少至一半以上&#xff0c;那么第一反应就是每次都挑数组中最大的数据去减半&#xff0c;这样可以是每次数组总和值减少程度最大化。 代码思路:利用大根堆去找数据中的最大值&#xff0c;…

MPLS提高网络服务质量的原理

MPLS&#xff08;Multiprotocol Label Switching&#xff0c;多协议标签交换&#xff09;是一种网络技术&#xff0c;它能够提高网络的服务质量&#xff08;Quality of Service&#xff0c;QoS&#xff09;以及整体性能。MPLS通过以下几种方式来提升网络服务质量&#xff1a;标…

CorelDRAW2024破解版下载 设计界的神器,你值得拥有!

数字艺术家们&#xff0c;你们有没有遇到过这样的困扰&#xff1a;想要创作出令人惊叹的数字艺术作品&#xff0c;但却受限于工具的选择&#xff1f;&#x1f914; 好消息来了&#xff01;CorelDRAW2024这款强大的设计软件终于问世了&#xff01;&#x1f389; 作为一名热衷于探…

Python基础教程(十一):数据结构汇总梳理

&#x1f49d;&#x1f49d;&#x1f49d;首先&#xff0c;欢迎各位来到我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里不仅可以有所收获&#xff0c;同时也能感受到一份轻松欢乐的氛围&#xff0c;祝你生活愉快&#xff01; &#x1f49d;&#x1f49…

信号与系统实验MATLAB-实验2-连续时间系统的时域分析

实验二 连续时间系统的时域分析 一、实验目的 1、掌握连续时间信号卷积及其MATLAB实现方法&#xff1b; 2、掌握连续系统的冲激响应、阶跃响应及其MATLAB实现方法&#xff1b; 3、掌握利用MATLAB求LTI系统响应的方法&#xff1b; 4、掌握利用MATLAB求函数卷积和解微分方程…

【递归、搜索与回溯】综合练习一

综合练习一 1.找出所有子集的异或总和再求和2.全排列 II3.电话号码的字母组合4.括号生成 点赞&#x1f44d;&#x1f44d;收藏&#x1f31f;&#x1f31f;关注&#x1f496;&#x1f496; 你的支持是对我最大的鼓励&#xff0c;我们一起努力吧!&#x1f603;&#x1f603; 1.找…

Django序列化器详解:普通序列化器与模型序列化器的选择与运用

系列文章目录 Django入门全攻略&#xff1a;从零搭建你的第一个Web项目Django ORM入门指南&#xff1a;从概念到实践&#xff0c;掌握模型创建、迁移与视图操作Django ORM实战&#xff1a;模型字段与元选项配置&#xff0c;以及链式过滤与QF查询详解Django ORM深度游&#xff…

Go Gin框架

一、Gin介绍 Gin是一个用Go编写的HTTPweb框架。它是一个类似于martini但拥有更好性能的API框架, 优于httprouter&#xff0c;速度提高了近 40 倍。点击此处访问Gin官方中文文档。 二、安装 1、安装Gin go get -u github.com/gin-gonic/gin 2、代码中引入 import "githu…

Aptos Builder Jam 亚洲首站|议程公布,无限畅想 Aptos 生态未来

作为一个新兴的 Layer1 公链&#xff0c;Aptos 自诞生之日起的理想便是 “A Layer 1 for everyone” 当 Web3 深陷熊市阴影之时&#xff0c;Aptos 奋力为开发者找到了全新的技术路径&#xff0c;正有 200 项目正在开发&#xff0c;并且已有大量 DeFi 项目落实部署工作&#xff…