【AI论文】对抗性后期训练快速文本到音频生成

news2025/5/17 18:13:21

摘要:文本到音频系统虽然性能不断提高,但在推理时速度很慢,因此对于许多创意应用来说,它们的延迟是不切实际的。 我们提出了对抗相对对比(ARC)后训练,这是第一个不基于蒸馏的扩散/流模型的对抗加速算法。 虽然过去的对抗性后训练方法难以与昂贵的蒸馏方法进行比较,但ARC后训练是一个简单的程序,它(1)将最近的相对论对抗性公式扩展到扩散/流后训练,(2)将其与一种新的对比鉴别器目标相结合,以鼓励更好的提示依从性。 我们将ARC后训练与Stable Audio Open的一些优化相结合,构建了一个能够在H100上大约75毫秒内生成大约12秒的44.1kHz立体声音频,在移动边缘设备上大约7秒的模型,据我们所知,这是最快的文本到音频模型。Huggingface链接:Paper page,论文链接:2505.08175

研究背景和目的

研究背景

近年来,文本到音频(Text-to-Audio, T2A)生成系统取得了显著进展,能够在各种应用场景中生成高质量的音频内容。然而,这些系统在推理(inference)阶段普遍存在速度较慢的问题,生成一段音频往往需要数秒甚至数分钟的时间。这种高延迟极大地限制了T2A系统在创意应用领域的实用性,如实时音乐创作、游戏音效生成、虚拟助手交互等。在这些场景中,用户期望系统能够即时响应并生成符合要求的音频内容,而现有的T2A系统显然无法满足这一需求。

为了解决这一问题,研究人员开始探索加速T2A系统的方法。目前,主流的加速技术主要基于蒸馏(distillation),即通过训练一个较小的模型来模拟较大模型的行为,从而在保持一定生成质量的同时提高推理速度。然而,蒸馏方法存在诸多局限性,如训练成本高、需要大量存储资源来保存教师模型生成的轨迹-输出对、以及可能导致生成多样性的降低等。此外,蒸馏方法往往依赖于分类器无引导(Classifier-Free Guidance, CFG)技术来提高生成质量,但CFG同时也会带来生成多样性的降低和过度饱和(over-saturation)的问题。

研究目的

本研究旨在提出一种不依赖于蒸馏的对抗性加速算法,用于加速基于扩散模型或流模型的文本到音频生成系统。具体而言,研究目的包括:

  1. 开发一种新的对抗性后训练(post-training)方法:通过引入相对论对抗性损失(Relativistic Adversarial Loss)和对比损失(Contrastive Loss),在保持生成质量的同时显著提高推理速度。
  2. 优化模型架构和采样策略:通过改进模型架构和采用更高效的采样策略,进一步减少推理时间,使得T2A系统能够在边缘设备上实时运行。
  3. 评估加速效果和生成质量:通过客观指标和主观评价,验证所提方法在加速效果和生成质量方面的优越性,并与现有加速方法进行比较。
  4. 探索创意应用潜力:通过实际案例展示加速后的T2A系统在创意应用领域的潜力,如音乐创作、声音设计等。

研究方法

1. 基础模型选择与预训练

本研究选择Stable Audio Open(SAO)作为基础模型,该模型是一个基于扩散模型的文本到音频生成系统,能够生成高质量的立体声音频。SAO模型由预训练的自动编码器、T5文本嵌入器和扩散Transformer(DiT)组成,总参数量约为1.06B。为了加速推理,研究对SAO模型进行了优化,减少了DiT的维度和层数,最终得到一个参数量约为0.34B的轻量级模型。

2. 对抗性相对对比后训练(ARC Post-Training)

ARC后训练是本研究的核心方法,它结合了相对论对抗性损失和对比损失来优化预训练的扩散模型。具体而言,ARC后训练包括以下步骤:

  • 初始化:将预训练的扩散模型作为生成器(G)和鉴别器(D)的初始化模型。
  • 相对论对抗性损失(LR):通过引入相对论对抗性损失,鼓励生成器生成更逼真的音频样本,同时使鉴别器能够更准确地区分真实样本和生成样本。相对论对抗性损失通过比较成对的真实样本和生成样本(共享相同的文本提示)来计算损失,从而提供更强的梯度信号。
  • 对比损失(LC):为了增强生成器对文本提示的遵循能力,研究引入了对比损失。对比损失通过训练鉴别器来区分具有正确和错误文本提示的音频样本,从而鼓励鉴别器关注语义特征而不是高频特征。这有助于提高生成音频与文本提示之间的一致性。
  • 联合优化:在训练过程中,交替更新生成器和鉴别器的参数,以最小化相对论对抗性损失和对比损失的总和。
3. 采样策略优化

为了进一步提高推理速度,研究采用了乒乓采样(Ping-Pong Sampling)策略。乒乓采样通过交替进行去噪和再加噪操作来迭代优化样本,从而减少了对传统ODE求解器的依赖。这种采样策略使得模型能够在更少的采样步骤内生成高质量的音频样本。

4. 边缘设备优化

为了使加速后的T2A系统能够在边缘设备上实时运行,研究还进行了边缘设备优化。具体而言,研究采用了Arm的KleidiAI库和LiteRT运行时,通过动态Int8量化技术来减少模型大小和推理时间。动态Int8量化技术允许在推理过程中动态量化激活值,从而在保持一定生成质量的同时显著减少内存占用和推理时间。

研究结果

1. 加速效果

实验结果表明,ARC后训练显著提高了T2A系统的推理速度。在H100 GPU上,优化后的模型能够在约75毫秒内生成12秒的44.1kHz立体声音频,相比原始SAO模型(约100秒)加速了超过100倍。在移动边缘设备上(如Vivo X200 Pro智能手机),优化后的模型也能在约7秒内完成生成任务,实现了实时音频生成。

2. 生成质量

通过客观指标(如FD openl3、KL passt、CLAP分数等)和主观评价(如webMUSHRA测试)发现,ARC后训练在保持生成质量的同时显著提高了推理速度。具体而言,优化后的模型在音频质量、语义对齐和提示遵循能力方面均表现出色,且生成多样性显著高于现有蒸馏方法(如Presto)。

3. 边缘设备性能

边缘设备优化实验表明,通过动态Int8量化技术,优化后的模型在保持一定生成质量的同时显著减少了内存占用和推理时间。在Vivo X200 Pro智能手机上,优化后的模型能够在约7秒内完成生成任务,且峰值运行时RAM使用量从6.5GB降低到3.6GB。

研究局限

尽管本研究在加速文本到音频生成系统方面取得了显著进展,但仍存在以下局限性:

  1. 模型大小和存储需求:优化后的模型仍然占用较大的存储空间(数GB),这可能限制了其在某些应用场景中的部署和分发。
  2. 计算资源需求:尽管ARC后训练显著提高了推理速度,但在资源受限的设备上(如低端智能手机),实时音频生成可能仍然面临挑战。
  3. 生成多样性评估:尽管本研究提出了CLAP条件多样性分数(CCDS)来评估条件生成多样性,但该指标可能无法全面反映生成音频的多样性。未来研究可以探索更全面的多样性评估方法。
  4. 特定领域性能:本研究主要关注通用音频生成任务,对于特定领域(如音乐、语音合成等)的音频生成任务,ARC后训练的性能可能需要进一步验证和优化。

未来研究方向

针对本研究的局限性和现有技术的不足,未来研究可以从以下几个方面展开:

  1. 模型压缩与轻量化:探索更高效的模型压缩和轻量化技术,以减少模型大小和存储需求。例如,可以采用知识蒸馏、剪枝、量化等技术来进一步压缩模型。
  2. 边缘设备优化:针对资源受限的边缘设备,研究更高效的推理加速策略。例如,可以探索更高效的采样策略、硬件加速技术(如专用神经网络处理器)等。
  3. 多样性评估与增强:研究更全面的多样性评估方法,以更准确地评估生成音频的多样性。同时,探索增强生成多样性的技术,如条件变分自编码器(CVAE)、生成对抗网络(GAN)的变种等。
  4. 特定领域应用:针对特定领域(如音乐、语音合成等)的音频生成任务,研究专门的加速和优化方法。例如,可以结合领域知识来设计更高效的模型架构和训练策略。
  5. 多模态融合:探索文本到音频生成系统与其他模态(如图像、视频)的融合技术,以实现更丰富的多媒体内容生成。例如,可以研究文本到视频生成系统中的音频同步和生成技术。
  6. 实时交互与反馈:研究实时交互和反馈机制,以使用户能够在生成过程中实时调整参数和提供反馈。这将有助于提高生成音频的满意度和实用性。

结论

本研究提出了一种不依赖于蒸馏的对抗性加速算法——对抗性相对对比后训练(ARC Post-Training),用于加速基于扩散模型或流模型的文本到音频生成系统。实验结果表明,ARC后训练在保持生成质量的同时显著提高了推理速度,使得T2A系统能够在边缘设备上实时运行。未来研究可以进一步探索模型压缩与轻量化、边缘设备优化、多样性评估与增强、特定领域应用、多模态融合以及实时交互与反馈等方向,以推动T2A技术在更多领域的应用和发展。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2377875.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

测试工程师如何学会Kubernetes(k8s)容器知识

Kubernetes(K8s)作为云原生时代的关键技术之一,对于运维工程师、开发工程师以及测试工程师来说,都是一门需要掌握的重要技术。作为一名软件测试工程师,学习Kubernetes是一个有助于提升自动化测试、容器化测试以及云原生应用测试能力的重要过程…

遥感图像露天矿区检测数据集VOC+YOLO格式1542张1类别

数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):1542 标注数量(xml文件个数):1542 标注数量(txt文件个数):1542 …

每日Prompt:迷你 3D 建筑

提示词 3D Q版迷你风格,一个充满奇趣的迷你星巴克咖啡馆,外观就像一个巨大的外带咖啡杯,还有盖子和吸管。建筑共两层,大大的玻璃窗清晰地展示出内部温馨而精致的设计:木质的家具、温暖的灯光以及忙碌的咖啡师们。街道…

el-breadcrumb 面包屑第一项后面怎么写没有分隔符

<el-breadcrumb separator"/"><el-breadcrumb-item>当前位置&#xff1a;</el-breadcrumb-item><el-breadcrumb-item :to"{ path: / }">首页</el-breadcrumb-item><el-breadcrumb-item><a href"/">活…

MYSQL 高可用

目录 一 什么是MYSQL高可用 1.1 什么是MySQL高可用 1.2方案组成 1.3 优势 2.1 案例环境 二 案例实施 1.安装mysql数据库 &#xff08;1 基础环境 &#xff08;2二进制安装进行bash (3 设置配置文件 MYSQL 的配置文件跟上面编译安装的配置文件类似 &#xff08;4. 配…

【GaussDB迁移攻略】DRS支持CDC,解决大规模数据迁移挑战

目录 1 背景介绍 2 CDC的实现原理 3 DRS的CDC实现方式 4 DRS的CDC使用介绍 5 总结 1 背景介绍 随着国内各大行业数字化转型的加速&#xff0c;客户的数据同步需求越来越复杂。特别是当需要将一个源数据库的数据同时迁移到不同的目标库场景时&#xff0c;华为云通常会创建…

HoloTime:从一张图片生成可交互的4D虚拟世界——突破静态生成模型,重构VR/AR内容生产范式

引言:静态生成模型的局限与HoloTime的突破 在空间智能与虚拟内容生成领域,传统生成模型(如扩散模型)面临两大瓶颈: 静态输出:仅能生成固定视角的3D场景或局部物体动画。沉浸感缺失:无法构建用户可“走进去”的动态4D空间(时间+空间)。HoloTime 通过“图像→全景视频→…

【深度学习】#11 优化算法

主要参考学习资料&#xff1a; 《动手学深度学习》阿斯顿张 等 著 【动手学深度学习 PyTorch版】哔哩哔哩跟李牧学AI 目录 深度学习中的优化挑战局部极小值鞍点梯度消失 凸性凸集凸函数 梯度下降一维梯度下降学习率局部极小值 多元梯度下降 随机梯度下降随机梯度更新动态学习率…

根据台账批量制作个人表

1. 前期材料准备 1&#xff09;要有 人员总的信息台账 2&#xff09;要有 个人明白卡模板 2. 开始操作 1&#xff09;打开 人员总的信息台账&#xff0c;选择所需要的数据模块&#xff1b; 2&#xff09;点击插入&#xff0c;选择数据透视表&#xff0c;按流程操作&…

LocaleContextResolver实现多语言切换-笔记

1. LocaleContextResolver功能简介 org.springframework.web.servlet.LocaleContextResolver是 Spring MVC 中用于解析和管理用户 Locale&#xff08;语言环境&#xff09; 的核心接口。 //LocaleContextResolver 接口定义 public interface LocaleContextResolver extends L…

Zephyr OS Nordic芯片的Flash 操作

目录 概述 1. 软硬件环境 1.1 软件开发环境 1.2 硬件环境 2 Flash操作库函数 2.1 nRF52832的Flash 2.2 Nordic 特有的 Flash 操作 2.2.1 nrfx_nvmc_bytes_write 函数 2.2.2 nrfx_nvmc_page_erase函数 2.2.3 nrfx_nvmc_write_done_check 函数 3 操作Flash的接口函数…

uv python 卸载

又是查了半天 官网wiki没有 网上一堆傻子胡说 uv提示也不对 AI还在这尼玛胡编乱造 开始 我原来装了这几个环境 uv python list 现在python3.7.7不需要了&#xff0c;卸载&#xff0c;直接 uv python uninstall 3.7.7 去找你自己要卸载的版本号&#xff0c;不需要整个包名复制…

浮点数截断法:四舍五入的精确模拟

理论解释&#xff1a; 1. 目标 假设 a 3.14159&#xff0c;我们想四舍五入到 小数点后两位&#xff08;即 3.14 或 3.15&#xff09;。 2. 步骤拆解 (1) a * 100 把 a 放大 100 倍&#xff0c;让小数点后两位变成整数部分&#xff1a; 3.14159 * 100 314.159 (2) 0.5 关…

技术文章:解决汇川MD500系列变频器干扰问题——GRJ9000S EMC滤波器的应用

1. 引言 汇川MD500系列变频器&#xff08;Variable Frequency Drive, VFD&#xff09;以其高性能、宽功率范围&#xff08;0.4kW-500kW&#xff09;和灵活的控制方式&#xff0c;广泛应用于工业自动化领域&#xff0c;如风机、水泵、传送带和压缩机等。然而&#xff0c;MD500系…

大模型数据分析破局之路20250512

大模型数据分析破局之路 本文面向 AI 初学者、数据分析从业者与企业技术负责人&#xff0c;围绕大模型如何为数据分析带来范式转变展开&#xff0c;从传统数据分析困境谈起&#xff0c;延伸到 LLM MCP 的协同突破&#xff0c;最终落脚在企业实践建议。 &#x1f30d; 开篇导语…

基于javaweb的SSM驾校管理系统设计与实现(源码+文档+部署讲解)

技术范围&#xff1a;SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等设计与开发。 主要内容&#xff1a;免费功能设计、开题报告、任务书、中期检查PPT、系统功能实现、代码编写、论文编写和辅导、论文…

Java内存泄露生产环境排查过程,通透了

昨天线上环境崩了 java堆内存溢出。。。 报错&#xff1a;java.lang.OutOfMemoryError: Java heap space 下面我将我排查问题的思路和过程记录了下来 1. 场景 客户端跟Java服务端通过websocket连接建立长链接并发送语音数据&#xff08;text格式&#xff09;Java服务端跟听…

NHANES指标推荐:MDS

文章题目&#xff1a;The association between magnesium depletion score (MDS) and overactive bladder (OAB) among the U.S. population DOI&#xff1a;10.1186/s41043-025-00846-x 中文标题&#xff1a;美国人群镁耗竭评分 &#xff08;MDS&#xff09; 与膀胱过度活动症…

【HTML5学习笔记1】html标签(上)

web标准&#xff08;重点&#xff09; w3c 构成&#xff1a;结构、表现、行为&#xff0c;结构样式行为相分离 结构&#xff1a;网页元素整理分类 html 表现&#xff1a;外观css 行为&#xff1a;交互 javascript html标签 1.html语法规范 1&#xff09; 所有标签都在…

计算机视觉---目标检测(Object Detecting)概览

一、目标检测定义与核心任务 1. 定义 任务&#xff1a;在图像/视频中定位并分类所有感兴趣目标&#xff0c;输出边界框&#xff08;Bounding Box&#xff09;和类别标签。核心输出&#xff1a; 坐标&#xff1a;((x_1, y_1, x_2, y_2))&#xff08;左上角右下角&#xff09;或…