基于对抗性后训练的快速文本到音频生成:stable-audio-open-small 模型论文速读

news2025/5/17 16:37:52

Fast Text-to-Audio Generation with Adversarial Post-Training 论文解析

一、引言与背景

  • 文本到音频系统的局限性:当前文本到音频生成系统性能虽佳,但推理速度慢(需数秒至数分钟),限制了其在创意领域的应用。

  • 研究目标:加速高斯流模型(扩散模型或修正流模型),避免传统蒸馏方法的缺陷。

  • 现有加速方法的不足

    • 蒸馏方法需大量资源(在线方法需同时存储多个模型,离线方法需预生成轨迹-输出对),且可能继承教师模型的低多样性和过饱和伪影。

    • 非蒸馏的对抗式后训练方法在图像领域有一定探索,但在音频领域尚未有成熟方案。

二、ARC 方法论

(一)修正流预训练

  • 目标:学习在文本条件 c 下,将数据分布 p0 和先验分布 p1(如各向同性高斯噪声)之间的转换模型,以从 p1 生成 p0 样本。

  • 前向腐蚀过程:通过添加噪声将数据转化为噪声表示(公式 1)。

  • 逆向生成过程:解常微分方程(ODE,公式 2),预测流的瞬时速度(公式 3)进行训练。

(二)对抗相对论-对比后训练(ARC)

  • 核心思想:用对抗损失替代基于 l2 的条件均值损失,利用判别器提供分布级反馈,减少所需采样步骤。

  • 优势:避免蒸馏方法的高成本,无需生成和存储轨迹-输出对,也无需依赖预训练教师模型性能。

  • 联合优化目标(公式 4):结合对抗相对论损失(LR)和对比损失(LC)。

(三)对抗相对论损失(LR)

  • 训练流程(图 1):

    • 对真实样本 x0 添加噪声得 xt,经生成器得生成样本 ˆx0。

    • 再对 ˆx0 和 x0 添加噪声,输入判别器。

    • 计算真实样本和生成样本在判别器空间的相对差异(公式 5 至 7)。

  • 关键特性:与标准 GAN 不同,LR 基于成对数据计算,生成器使生成样本在判别器空间相对真实样本更真实,判别器则相反。因文本条件任务中成对样本共享相同文本提示,提供更强梯度信号。

(四)对比损失(LC)

  • 提出背景:对抗损失单独使用会导致文本遵循性变差。

  • 实现方式(图 2):将判别器训练为音频-文本对比模型,最大化正确和错误提示对应真实样本在判别器空间的差异(公式 8)。

  • 作用:使判别器关注语义特征,提升提示遵循性,且无需使用 Classifier-Free Guidance(CFG),避免其对多样性和输出过饱和的负面影响。

(五)乒乓采样

  • 适用场景:ARC 后训练模型直接估计不同噪声水平下的干净输出,而非预测瞬时速度。

  • 工作原理:交替进行去噪和重新加噪,逐步优化样本质量。从初始噪声样本开始,反复去噪和加噪,最终逼近干净数据。

(六)加速作为奖励建模

  • 与语言模型偏好后训练的联系:ARC 的相对论目标类似于语言模型基于人类偏好对赢得-输掉样本对训练偏好模型。判别器隐式作为奖励模型,生成器则最大化相对奖励。

三、实验与评估

(一)模型架构

  • 生成模型:基于 Stable Audio Open(SAO),包含预训练自动编码器、T5 文本嵌入器和在潜在空间操作的扩散 Transformer(DiT)。对 DiT 进行改进以提升效率。

  • 判别器:基于预训练修正流初始化,包含输入嵌入层、部分 DiT 块和轻量级判别器头部。

(二)训练与采样细节

  • 数据集:使用 Freesound 样本(6,330 小时,472,618 音频),排除长形式 FMA 音乐。

  • 训练迭代:修正流模型训练 670k 迭代,每个加速算法在 8 个 H100 GPU 上微调 100k 迭代,批次大小 256,学习率 5×10−7。

  • 噪声分布:pgen(t) 为从 -6 到 2 的对数信噪比空间中的均匀分布;pdisc(s) 为移位对数正态分布,侧重中高信噪比区域。

(三)客观评估指标

  • 音频质量与语义对齐:采用 FDopenl3、KLpasst 和 CLAP 分数指标。

  • 多样性评估

    • 现有指标:报告 recall 和 coverage 指标(Rpasst 和 Cpasst),衡量 PASST 空间中的分布多样性。

    • 新提出指标:CLAP 条件多样性分数(CCDS),计算相同提示生成样本对的 CLAP 余弦距离平均值,距离低表示多样性低,反之则高。

  • 速度评估:报告实时因子(RTF,生成音频时长除以延迟)和 H100 上的 VRAM 峰值使用量。

(四)主观评估

  • 评估方式:使用 webMUSHRA 进行听力测试,参与者对多样性、音频质量和提示遵循性进行 5 分制评分。

  • 评估重点:关注与音乐制作相关的提示(如 “拉丁放克鼓组 115 BPM”)和空间复杂场景(如 “跑车经过”),以及更广泛、更模糊的提示(如 “燃烧的火焰” 和 “水”)以评估多样性。

(五)基线模型

  • Stable Audio Open(SAO):质量基线和加速参考点,模型较大且未针对速度优化。

  • 预训练修正流(RF):基础加速模型。

  • Presto:基于蒸馏的音频扩散加速方法,使用基模型和辅助分数模型最小化逆向 KL 损失并结合 GAN 损失。

  • 消融实验:对 ARC 进行消融,分别省略 LC 或用标准最小二乘对抗损失(LLS)替换 LR。

(六)结果与讨论

  • 性能对比:SAO 虽质量最佳但速度慢;加速模型(ARC、Presto 等)速度提升显著(比 SAO 快 100 倍,比预训练 RF 快 10 倍),指标表现相近。

  • Presto 的权衡:提升基 RF 模型质量,但严重损害多样性且恶化 FDopenl3。

  • ARC 的表现:进一步提升生成多样性,FDopenl3 表现最佳,但 MOS 质量评分略低于预训练 RF。其输出多样性更高,但提示遵循性稍低。

  • 消融实验结果

    • 仅用 LR 训练导致提示遵循性差,此时多样性高因生成器变成无条件模型。

    • 相对论损失在对抗加对比后训练中优于最小二乘损失。

    • 模型在 8 步时表现最佳,与小加速模型可能比大模型需要更多步数的发现一致。

  • CCDS 指标有效性:CCDS 与听力测试多样性结果完全一致,表明其可用于自动评估多样性。

(七)边缘设备优化

  • 优化手段:使用 Arm 的 KleidiAI 库(通过 XNNPACK 库集成到 LiteRT 运行时),对 Vivo X200 pro 手机进行动态 Int8 量化,仅对部分层进行量化,运行时动态量化激活。

  • 优化效果:推理时间从 15.3 秒(原始 F32)降至 6.6 秒,峰值运行时 RAM 使用量从 6.5GB 降至 3.6GB。高端(H100)和消费级(3090)GPU 分别实现 75ms 和 187ms 的速度。

(八)创意应用

  • 响应速度要求:为在创意工作流中作为“乐器”,文本到音频模型需响应迅速。降低消费级 GPU 延迟至 200ms 以下,提升音效设计灵感。

  • 音频到音频能力:利用乒乓采样实现风格迁移,无需额外训练。可通过语音录音初始化初始噪声样本实现语音到音频控制,或用强节奏录音初始化进行节拍对齐生成。

  • 局限性:模型内存和存储需求高(占数 GB RAM 和磁盘空间),对集成到多应用和高效分发构成挑战。

四、结论

  • ARC 的创新性:首个不依赖蒸馏或 CFG 的文本到音频模型加速方法,通过扩展对抗相对论损失并结合新颖对比判别器损失,大幅提升高斯流模型运行速度,同时保持质量并提升生成多样性。

  • 评估指标贡献:提出的 CCDS 多样性评估指标与感知评估一致,为自动评估多样性提供合理工具。

  • 未来展望:期望更高效和多样性的文本到音频模型能支持更广泛的创意应用。认识到此类模型的创意潜力,论文还探索音频到音频实验,并建议未来工作可聚焦于用针对性数据集微调以实现更精确的声音设计。

五、核心技术汇总表格

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2377820.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ADC深入——SNR、SFDR、ENOB等概念

目录 SNR(Spurious‑Free Dynamic Range 信噪比) ENOB(Effective Number Of Bits 有效位) SFDR(Spurious‑Free Dynamic Range) 感觉SNR和SFDR差不多?看看下图 输入带宽 混叠 带通采样/欠…

硬件厂商的MIB文档详解 | 如何查询OID? | MIB Browser实战指南-优雅草卓伊凡

硬件厂商的MIB文档详解 | 如何查询OID? | MIB Browser实战指南-优雅草卓伊凡 一、硬件厂商的MIB文档是什么? 1. MIB的本质:设备的”数据字典” MIB(Management Information Base) 是SNMP协议的核心数据库,定义了设备…

阿里开源通义万相 Wan2.1-VACE,开启视频创作新时代

0.前言 阿里巴巴于2025年5月14日正式开源了其最新的AI视频生成与编辑模型——通义万相Wan2.1-VACE。这一模型是业界功能最全面的视频生成与编辑工具,能够同时支持多种视频生成和编辑任务,包括文生视频、图像参考视频生成、视频重绘、局部编辑、背景延展…

小学数学题批量生成及检查工具

软件介绍 今天给大家介绍一款近期发现的小工具,它非常实用。 软件特点与出题功能 这款软件体积小巧,不足两兆,具备强大的功能,能够轻松实现批量出题。使用时,只需打开软件,输入最大数和最小数&#xff0c…

5.13/14 linux安装centos及一些操作命令随记

一、环境准备 VMware Workstation版本选择建议 CentOS 7 ISO镜像下载指引 虚拟机硬件配置建议(内存/处理器/磁盘空间) 二、系统基础命令 一、环境准备 1.VMware Workstation版本选择建议 版本选择依据 选择VMware Workstation的版本时&#xff0c…

Baklib加速企业AI数据智理转型

Baklib智理AI数据资产 在AI技术深度渗透业务场景的背景下,Baklib通过构建企业级知识中台架构,重塑了数据资产的治理范式。该平台采用智能分类引擎与语义分析模型,将分散在邮件、文档、数据库中的非结构化数据转化为标准化的知识单元&#xf…

基于协同过滤的文学推荐系统设计【源码+文档+部署】

基于协同过滤的文学推荐系统设计 摘要 随着信息技术的飞速发展和文学阅读需求的日益多样化,构建一个高效、精准的文学推荐系统变得尤为重要。本文采用Spring Boot框架,结合协同过滤算法,设计并实现了一个基于用户借阅行为和社交论坛互动的文学…

数据结构与算法——单链表(续)

单链表(续) 查找在指定位置之前插入结点在指定位置之后插入结点删除pos位置的结点删除pos位置之后的结点销毁 查找 遍历:pcur指向头结点,循环,当pucr不为空进入循环,pucr里面指向的数据为要查找的值的时候…

全面且深度学习c++类和对象(上)

文章目录 过程和对象类的引入,类的定义类的访问限定符及封装类的访问限定符封装 类的实例化类大小内存对齐规则: this指针this特性 过程和对象 C语言面向过程设计,c面向对象设计, 举例:洗衣服 C语言:放衣服…

开源情报如何成为信息攻防的关键资源

相比于传统情报,开源情报具有情报数量大、情报质量好、情报成本低、情报可用性强等优势。这是开源情报能够成为信息攻防关键资源的主要原因。 海量信息让开源情报具有更大潜力。一是开源情报体量巨大。信息化时代是信息爆炸的时代,网络上发布的各种信息…

【风控】用户特征画像体系

一、体系架构概述 1.1 核心价值定位 风控特征画像体系是通过多维度数据融合分析,构建客户风险全景视图的智能化工具。其核心价值体现在: 全周期覆盖:贯穿客户生命周期的营销、贷前、贷中、贷后四大场景立体化刻画:整合基础数据…

Unity:场景管理系统 —— SceneManagement 模块

目录 🎬 什么是 Scene(场景)? Unity 项目中的 Scene 通常负责什么? 🌍 一个 Scene 包含哪些元素? Scene 的切换与管理 📁 如何创建与管理 Scenes? 什么是Scene Man…

SZU 编译原理

总结自 深圳大学《编译原理》课程所学相关知识。 文章目录 文法语法分析自顶向下的语法分析递归下降分析LL(1) 预测分析法FIRST 集合FOLLOW 集合 文法 乔姆斯基形式语言理论: 表达能力:0型文法 > 1型文法 > 2型文法 > 3型文法。 0 型文法&am…

【程序员AI入门:模型】19.开源模型工程化全攻略:从选型部署到高效集成,LangChain与One-API双剑合璧

一、模型选型与验证:精准匹配业务需求 (一)多维度评估体系 通过量化指标权重实现科学选型,示例代码计算模型综合得分: # 评估指标权重与模型得分 requirements {"accuracy": 0.4, "latency": …

ARM Cortex-M3内核详解

目录 一、ARM Cortex-M3内核基本介绍 (一)基本介绍 (二)主要组成部分 (三)调试系统 二、ARM Cortex-M3内核的内核架构 三、ARM Cortex-M3内核的寄存器 四、ARM Cortex-M3内核的存储结构 五、ARM Co…

ThinkStation图形工作站进入BIOS方法

首先视频线需要接在独立显卡上,重新开机,持续按F1,或者显示器出来lenovo的logo的时候按F1,这样就进到bios里了。联*想*坑,戴尔贵。靠。

go 集成base64Captcha 支持多种验证码

base64Captcha 是一个基于 Go 语言开发的验证码生成库,主要用于在 Web 应用中集成验证码功能,以增强系统的安全性。以下是其主要特点和简介: base64Captcha主要功能 验证码类型丰富:支持生成多种类型的验证码,包括纯…

【C语言字符函数和字符串函数(一)】--字符分类函数,字符转换函数,strlen,strcpy,strcat函数的使用和模拟实现

目录 一.字符分类函数 1.1--字符分类函数的理解 1.2--字符分类函数的使用 二.字符转换函数 2.1--字符转换函数的理解 2.2--字符转换函数的使用 三.strlen的使用和模拟实现 3.1--strlen的使用演示 3.2--strlen的返回值 3.3--strlen的模拟实现 四.strcpy的使用和模拟实现…

大模型基础之量化

概述 量化,Quantization,机器学习和深度学习领域是一种用于降低计算复杂度、减少内存占用、加速推理的优化方法。定义:将模型中的数据从高精度表示转换为低精度表示。主要目的是为了减少模型的存储需求和计算复杂度,同时尽量减少…

游戏引擎学习第286天:开始解耦实体行为

回顾并为今天的内容定下基调 我们目前正在进入实体系统的一个新阶段,之前我们已经让实体的移动系统变得更加灵活,现在我们想把这个思路继续延伸到实体系统的更深层次。今天的重点,是重新审视我们处理实体类型(entity type&#x…