论文分享丨西工大音频语音与语言处理研究组四篇论文被IEEE Trans. ASLP和SPL录用

news2025/7/19 17:57:55

近日,实验室三篇论文被语音研究顶级期刊IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP)录用,一篇论文被重要期刊IEEE Signal Processing Letters (IEEE SPL)录用,论文方向涉及说话人识别中的对抗攻击、基于扩散模型的跨语种情感迁移语音合成、语音转换中基于多层级韵律建模的风格迁移、基于语言模型的语音转换。现对四篇论文工作进行简要介绍。

-1-

  • 论文题目:Timbre-reserved Adversarial Attack in Speaker Identification

  • 作者列表:王晴,姚继珣,张丽,郭鹏程,谢磊

  • 发表期刊:IEEE/ACM Transactions on Audio, Speech and Language Processing

  • 论文网址:https://arxiv.org/abs/2309.00929

图片

内容简介:作为一种生物特征识别技术,说话人识别(Speaker Identification, SID)系统面临各种攻击。欺骗攻击(Spoofing Attack)通常模仿目标说话人的音色,而对抗攻击(Adversarial Attack)则通过向任意语音添加经过精心设计的对抗扰动来混淆SID系统。尽管欺骗攻击复制了与目标说话人相似的音色,但没有把SID这个下游任务考虑进去,并未利用SID模型的弱点,不能完全使SID系统产生攻击者所期望的决策。至于对抗攻击,尽管SID系统可以被引导到特定的决策上,但它不能满足特定攻击场景中特定的的文本或说话人音色要求。在本文中,为了对说话人识别模型中的攻击不仅利用SID模型的弱点,还可以保留目标说话人的音色,我们提出了一种保留音色的对抗攻击方法。我们通过在语音转换(Voice Conversion, VC)模型的不同训练阶段添加对抗约束来生成保留音色的对抗伪造音频。具体来说,对抗约束是使用目标说话人标签来优化添加到VC模型表示中的对抗扰动,并通过加入VC模型训练的说话人分类器来实现。对抗约束可以帮助控制VC模型生成特定说话人的音频。最终,VC模型的推理结果是理想的保留音色的对抗伪造音频,可以欺骗SID系统。在音频深度伪造检测挑战赛(Audio Deepfake Detection  Challenge, ADD)数据集上的实验结果表明,我们提出的方法显著提高了攻击成功率,与仅在攻击语音中直接添加对抗扰动的普通VC模型的结果是可比的。客观和主观评估表明,本文方法生成的伪造音频的质量优于直接向VC生成的音频添加对抗扰动。此外分析显示,生成的对抗伪造音频也符合攻击者指定的文本和目标说话人音色保留要求。

-2-

  • 论文题目:DiCLET-TTS: Diffusion Model based Cross-lingual Emotion Transfer for Text-to-Speech -- A Study between English and Mandarin

  • 作者列表:李涛, 胡晨旭, 从坚, 朱新发, 李静北, 田乔,王玉平, 谢磊

  • 发表期刊:IEEE/ACM Transactions on Audio, Speech and Language Processing

  • 合作单位:字节跳动

  • 论文网址:http://arxiv.org/abs/2309.00883

图片

内容简介:跨语种语音合成旨在赋予目标发音人说外语的能力。虽然基于单语语料库的跨语种语音合成的性能得到了显著改善,但合成的跨语种语音仍然受到外国口音问题的影响,导致合成语音的自然度有限。此外,当前的跨语种语音合成方法大多忽略了情感建模,而情感是人类语音中不可或缺的副语言信息。针对上述问题,本文提出了DiCLET-TTS,一种基于扩散模型的跨语种情感迁移方法,可以将情感从源说话人迁移至语种内的和跨语种的目标说话人。具体来说,为了缓解外国口音问题,同时提升情感表现力,前向扩散过程的终端分布被先验文本编码器以情感嵌入为条件,参数化为与说话人无关但与情感相关的语义先验。为了解决从情感嵌入中去除说话人信息而导致迁移的情感表现力较弱的问题,提出了一种新颖的基于正交投影的情感解耦模块(OP-EDM)以学习与说话人无关但具有情感判别性的嵌入。此外,引入条件增强的扩散解码器来增强反向扩散过程中说话人和情感的建模能力,进一步提高语音传递中的情感表现力。实验表明,尽管语种内情感迁移的性能优于更具挑战性的跨语种迁移,但与三种基线方法相比,DiCLET-TTS 在语内和跨语种迁移方面都可以有效提升合成语音的自然度、情感相似度和说话人相似度。同时,嵌入可视化和偏好测试证明了 OP-EDM 在学习与说话人无关但具有情感判别性的情感嵌入方面的优势。

-3-

  • 论文题目:MSM-VC: High-fidelity Source Style Transfer for Non-Parallel Voice Conversion by Multi-scale Style Modeling

  • 作者列表:王智超,王新升,谢启聪,李涛,谢磊,田乔,王玉平

  • 发表期刊:IEEE/ACM Transactions on Audio, Speech and Language Processing

  • 合作单位:字节跳动

  • 论文网址:https://arxiv.org/abs/2309.01142

图片

内容简介:在语音转换(Voice Conversion, VC)任务中,除了需要将源语音的语义内容传递给转换后的语音,保持源语音中的讲话风格同样十分的重要,它对于许多需要高表现语音的场景十分关键,比如电影电视配音、数据增广等。过去的方法通常使用基于信号提取的韵律特征或者网络学习的定长风格表征来表示源语音的讲话风格,但是这种方式下对于实现全面的风格建模和目标说话人音色保留是不充足的。受语音风格多尺度性质的启发,本文提出了一种用于 VC 任务的多尺度风格建模方法,简称 MSM-VC。MSM-VC 从不同级别(全局、局部和帧级)对源语音的说话风格进行建模。为了有效地建模说话风格,同时防止源语音中音色信息泄露到转换后的语音,每个级别的风格都通过特定的特征来建模。具体来说,  韵律特征、预训练的 ASR 模型的瓶颈特征以及自监督模型提取的特征分别对帧级、局部和全局的风格进行建模。同时,为了平衡源语音风格建模和目标说话人音色保留的能力,我们引入了由预训练的语音情感识别模型和说话人分类器组成的显式约束模块。这种显式约束模块还可以在训练过程中模拟风格迁移的推理过程,能够提高模型解耦能力并减轻训练与推理之间的不匹配。在高表现力语音测试集上进行的实验表明,MSM-VC 优于过去的 VC 方法。提出的方法可以实现对源语音风格进行建模,同时保持良好的语音质量和说话人相似性。此外,消融分析证明了每个风格级别建模的必要性以及每个模块的有效性。

-4-

  • 论文题目:LM-VC: Zero-shot Voice Conversion via Speech Generation based on Language Models

  • 作者列表:王智超,陈远哲,谢磊,田乔,王玉平

  • 发表期刊:IEEE Signal Processing Letters

  • 合作单位:字节跳动

  • 论文网址:https://arxiv.org/abs/2306.10521

图片

内容简介:基于语言模型 (Lauguage Model, LM) 的音频生成框架(例如 AudioLM)最近在零样本音频生成方面实现了非常优越的性能。本文探索了LM用于零样本语音转换(Zero-shot Voice Conversion)的潜力。最直观的方法是参照AudioLM的框架——通过HuBERT和SoundStream将语音分别表示为语义标记(Semantic Token)和声学标记(Acoustic Token),并根据目标说话人的声学标记将源语音的语义标记转换为目标语音的声学标记。然而,这种方案的问题是:1)语义标记中包含的语言内容可能在多层建模过程中逐渐变弱,而语音转换任务中较长的语音输入使上下文学习变得更加困难;2)语义标记仍然包含少量说话人相关的信息,这些信息可能会泄漏到目标语音中,从而降低目标说话人的相似度;3)LM采样时的多样性可能会导致推理过程中出现错误的结果,从而导致发音不自然和语音质量下降。为了缓解这些问题,我们提出了 LM-VC,这同样是一种两阶段的语言建模方法,它生成粗略的声学标记来恢复源语音的语言内容和目标说话人的音色,然后重建包含声学细节的精细声学标记最终得到转换后的语音。具体来说,为了增强语言内容的传递并促进更好的解耦,我们使用带有掩模预测策略的掩模前缀语言模型(Masked Prefix Language Model, MPLM)进行粗略声学建模。该模型被要求从周围上下文中恢复屏蔽的内容,并根据目标说话人的语音和损坏的语义标记来生成目标语音。此外,为了进一步减轻生成过程中的采样误差,我们引入了一个外部语言模型(External Language Model, ELM),它利用窗口注意力机制(Window Attention)来捕获局部的声学关系,通过浅层融合(Shallow Fusion)参与粗略的声学建模过程。最后,前缀语言模型(Prefix Language Model, PLM)以非自回归的方式从粗略的声学标记中重建精细的声学标记,并产生转换后的语音。实验表明,LM-VC 在语音自然度和说话人相似度方面优于对比系统。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/990161.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

初学python(一)

一、python的背景和前景 二、 python的一些小事项 1、在Java、C中,2 / 3 0,也就是整数 / 整数 整数,会把小数部分舍掉。而在python中2 / 3 0.66666.... 不会舍掉小数部分。 在编程语言中,浮点数遵循IEEE754标准,不…

vscode中git的使用,以及与webstorm中git的使用对比

前言: 在项目中经常使用的git提交我们代码的时候,vscode和webstorm 是用的非常多的两个工具了,这里再次整理下他们的具体使用以及各自的优势! 1、初始化拉取项目 个人习惯,这里就不说框架用法了,原始的最简…

Python函数的概念以及定义方式

一. 前言 嗨喽~大家好呀,这里是魔王呐 ❤ ~! python更多源码/资料/解答/教程等 点击此处跳转文末名片免费获取 二. 什么是函数? 假设你现在是一个工人,如果你实现就准备好了工具,等你接收到任务的时候, 直接带上工…

【安全】正则回溯绕过练习简单案例

目录 环境 案例1 前要 代码审计 分析 案例2 代码审计 分析 payload 环境 phpstudy 案例1 前要 php中0 1 -1 true false null 空字符 数组之间的比较 代码审计 <?php function areyouok($greeting){return preg_match(/Merry.*Christmas/is,$greeting); //2.传…

FP103 双运算放大器和参考调节器芯片

FP103 双运算放大器和参考调节器芯片 一般说明 FP103是一个由一个独立的运放器&#xff08;OPA2&#xff09;和另一个运放器&#xff08;OPA1&#xff09;组成&#xff0c;在非反相输入上具有2.5V精密电压参考&#xff0c;应用于许多应用&#xff0c;如电源、二流/直流转换器或…

python selenium控制浏览器打开网页 模拟鼠标动作

selenium 是一个浏览器控制的库 需要下载安装 谷歌浏览器的驱动 chromedriver https://sites.google.com/chromium.org/driver/downloads 在这里选择跟自己谷歌浏览器版本号一致的驱动程序 如果是最新的浏览器版本可以点这里下面这个链接 Chrome for Testing availability 选…

Web自动化测试详细流程和步骤

一、什么是web自动化测试 自动化&#xff08;Automation&#xff09;是指机器设备、系统或过程&#xff08;生产、管理过程&#xff09;在没有人或较少人的直接参与下&#xff0c;按照人的要求&#xff0c;经过自动检测、信息处理、分析判断、操纵控制&#xff0c;实现预期的目…

echo tail 与 重定向符

1.echo 命令 可以使用echo命令在命令行内输出指定内容 语法: echo输出的内容 无需选项&#xff0c;只有一个参数&#xff0c;表示要输出的内容&#xff0c;复杂内容可以用””包围其类似于 printf 函数 例子&#xff1a; 2. 反引号符 被包围的内容&#xff0c;会被作为命令…

SpringMVC_拦截器

4.拦截器 4.1拦截器概述 概述&#xff1a;一种动态拦截方法调用的机制&#xff0c;在SpringMVC中动态拦截控制器方法的执行实际开发中&#xff0c;静态资源&#xff08;HTML/CSS&#xff09;不需要交给框架处理&#xff0c;需要拦截的是动态资源 4.2图示 图示 4.3案例实现 …

基于Java SSM+layui+mysql实现的图书借记管理系统源代码+数据库

介绍 本项目使用的技术栈是SSMlayuimysql&#xff0c;服务器使用的是tomcat 其中书籍图片存放的位置需要先在tomcat根目录下conf/setting.xml中配置虚拟路径&#xff0c;本项目配置的是D:\upload 完整代码下载地址&#xff1a;图书借记管理系统 用户角色划分 游客 使用本系…

Scrum敏捷开发实施步骤和注意事项

在当今高度变化的时代&#xff0c;软件开发的环境和要求也在不断变化。传统的开发方法往往难以适应这种快速变化&#xff0c;因此&#xff0c;一种新的软件开发方法——敏捷开发逐渐得到了广泛的关注和应用。 敏捷开发的实施可以按照以下步骤进行&#xff1a; 1、明确产品愿景…

[贪心] 常见区间问题

1. 区间合并 先将区间进行排序&#xff0c;排序完后那么&#xff0c;区间合并就为以下三种情况 class Solution { public:vector<vector<int>> merge(vector<vector<int>>& intervals) {sort(intervals.begin(),intervals.end());int st,ed;vecto…

Mysql安装登录以及修改密码(8.0.33为例)windows版本

一、下载和解压 1.下载开源免费版本 2.将下载的zip文件解压到电脑下我的是d盘Program Files 注意不要有中文目录 3.在mysql的安装目录下创建mysql的配置文件my.ini并且新建data数据目录 [mysqld]#port port3306# set basedir to your installation path basedirD:\\Program Fi…

使用CUDA计算GPU的理论显存带宽

文章目录 一、显存带宽和理论显存带宽1. 显存带宽2. 理论显存带宽1&#xff09;计算公式2&#xff09;举例 二、利用CUDA计算理论显存带宽 一、显存带宽和理论显存带宽 1. 显存带宽 显存带宽是指显存和GPU计算单元之间的数据传输速率。 显存带宽越大&#xff0c;意味着数据传…

AI 编程助手 Amazon CodeWhisperer 使用(持续更新中)

文章作者&#xff1a;天博 近期 chatGPT 非常火爆&#xff0c;试用一些公众号功能&#xff0c;及自己接入的 chatGPT&#xff0c;写小作文能力一流&#xff0c;但是准确率很低&#xff0c;一直在搜寻可以在 idea 中使用&#xff0c;且非常丝滑的 AI 编程工具&#xff0c;前不久…

开源免费高颜值音乐播放器 无广告-BlackHole

BlackHole是什么 BlackHole是一个开源免费且高颜值的音乐播放器&#xff0c;简约无广告&#xff0c;目前聚合Saavn、Spotify、YtMusic 和 YouTube 平台音乐&#xff0c;支持从 Spotify 和 YouTube 导入播放列表&#xff0c;支持15音乐语言&#xff0c;最佳流媒体质量 支持320k…

Node.js 操作百度网盘实现文件上传(小文件上传,大文件分片上传)

Node.js 操作百度网盘实现文件上传&#xff08;小文件上传&#xff0c;大文件分片上传&#xff09; 前提准备&#xff1a;获取百度网盘的授权码 https://pan.baidu.com/union/doc/al0rwqzzl const fs require(fs); const crypto require(crypto); const path require(pat…

解某麦数据请求参数analysis加密

意外发现一个可以查询app下载量得网站&#xff0c; 想筛选一下哪些下载量在1w-10w之间&#xff0c;大概需要5k个.。 感觉应该没啥加密&#xff0c;好把&#xff0c;是我小看了&#xff0c;有个参数是加密得&#xff0c;如图。 analysis 扣js开始&#xff0c; f12 去资源文件…

AP5125 外置MOS LED降压恒流驱动器 过EMC认证 车灯驱动线路图

产品描述 AP5125 是一款外围电路简单的 Buck 型平均电流检测模式的 LED 恒流驱动器&#xff0c;适用于 8-100V 电压范围的非隔离式大功率恒流 LED 驱动领域。芯片采用固定频率 140kHz 的 PWM 工作模式&#xff0c; 利用平均电流检测模式&#xff0c;因此具有优异的负载调整 率…

算法通关村第十八关:青铜挑战-回溯是怎么回事

青铜挑战-回溯是怎么回事 回溯&#xff0c;最重要的算法之一 主要解决一些暴力枚举也搞不定的问题&#xff0c;例如组合、分割、子集、排列、棋盘等 从性能角度来看回溯算法的效率并不高&#xff0c;但对于这些暴力都搞不定的算法能出结果就很好了&#xff0c;效率低点没关系…