AI大模型学习二十八、ACE-Step：生成式AI音乐大模型简介与安装（一）

一、说明

先来一首创作的歌：

在大模型和生成式AI模型大规模发达的今天，利用大模型生成音乐也是其中一个重要的发展方向。今天我们就介绍一个这样的音乐生成模型ACE-Step，可基于关键字和歌词生成歌曲；基于歌曲生成伴奏等等功能。

1、概述

ACE-Step——一款突破性的开源音乐生成基础模型，通过整体架构设计克服了现有方法的固有缺陷，实现了业界领先的性能。当前音乐生成技术普遍面临生成速度、音乐连贯性与可控性之间的矛盾：基于大语言模型的方法（如Yue、SongGen）虽擅长歌词对齐，但存在推理速度慢和结构失真问题；而扩散模型（如DiffRhythm）虽能快速合成，却常缺乏长程结构连贯性。

ACE-Step创新性地融合了基于扩散的生成范式、Sana深度压缩自动编码器（DCAE）和轻量级线性Transformer架构，并引入MERT与m-hubert实现语义表征对齐（REPA）训练机制，显著加速模型收敛。实验表明，该模型在A100 GPU上仅需20秒即可生成长达4分钟的音乐，生成速度较基于LLM的基线模型提升15倍，同时在旋律、和声与节奏等维度展现出卓越的音乐连贯性和歌词对齐能力。更重要的是，ACE-Step完整保留了音乐信号的精细声学细节，支持音色克隆、歌词编辑、混音重构及分轨生成（如歌词转人声、歌声转伴奏）等高级控制功能。

不同于传统的端到端文本到音乐生成框架，我们的愿景是构建音乐AI的基础设施：打造一个高速、通用、高效且灵活的架构，使其能够便捷支持各类子任务的训练开发。这将为音乐人、制作人和内容创作者提供无缝融入创作流程的强大工具，最终实现音乐生成领域的"Stable Diffusion时刻"——让音乐创作民主化真正触手可及。

2、架构

现有的基于LLM的音乐生成模型，比如Yue、SongGen等虽然在歌词对齐方面表现出色，但推理速度慢且存在结构性问题。基于扩散模型，比如DiffRhythm虽然能够实现更快的合成速度，但通常缺乏较长段落的结构连贯性。为了克服这些现有模型的局限性，ACE-Step通过统一的架构设计实现了最佳性能，在生成速度、音乐连贯性和可控性之间多方面的改善。

ACE-Step通过diffusion生成与Sana的深度压缩自动编码器 (DCAE) 和轻量级线性变换器相结合，并利用MERT和m-hubert在训练过程中对齐语义表示 (REPA)，从而实现快速收敛。整体结构图如下：

3、硬件测试

ACE-Step可实现在A100 GPU上仅需20秒即可合成一首4分钟的音乐。这比基于LLM的基准快15倍。同时还在旋律、和声和节奏指标上实现了完美的连贯性和歌词对齐。对不同硬件条件下的其系能表现得对比基准测试：

4、功能组成

ACE-Step主要有两个大的功能应用构成，后续会陆续推出Rap机，StemGen和唱歌伴奏等功能。

Lyric2Vocal（LoRA）：

基于对纯语音数据进行微调LoRA，可直接从歌词生成语音样本。

提供众多实用应用，如人声演示、指南曲目、歌曲创作辅助和人声编排实验。

提供一种快速测试歌词演唱效果的方法，帮助歌曲创作者更快地进行迭代。

Text2Samples (LoRA)：

与Lyric2Vocal类似，但针对纯乐器和样本数据进行了微调。

能够根据文本描述生成概念音乐制作样本。

有助于快速创建乐器循环、音效和音乐元素以供制作。

二、模型特点

ACE-Step 具备高效多元创作能力、强可控性和易于拓展的三大核心特色

1、高效多元创作支持

ACE-Step 具备出色的多语言支持、极速生成能力以及高质量的音乐创作表现，确保创作者能够实现跨文化创作与高质量交付。

音乐质量与表现力兼顾

ACE-Step 支持多种主流音乐风格的创作，并能够生成丰富多样且兼具表现力的演唱、器乐编排，确保音乐的连贯性与和谐，并展现出风格的多样性。

支持快速生成

ACE-Step 提供两种生成模式：快速和慢速模式。最快 15 秒即可生成一整首歌，慢速模式也仅需 32 秒。

支持快速生成

ACE-Step 提供两种生成模式：快速和慢速模式。最快 15 秒即可生成一整首歌，慢速模式也仅需 32 秒。

支持多语言生成

ACE-Step 支持 19 种语言（如中文、英文、西班牙语等）的歌曲生成，满足跨文化创作的需求。无论是本地化定制还是跨语言创作，ACE-Step 都能提供强大支持，帮助创作者轻松应对全球化的音乐创作需求。

ACE-Step 能精准捕捉每个乐器的音色和表现力，确保每个音符栩栩如生，并灵活展现不同歌唱技巧和音乐风格，让每一首歌都充满独特的韵味与深度。

2、全能编辑器：可控性强

ACE-Step 不仅仅是一个“生成器”，它还是一个全能的“编辑器”，在创作过程中提供高度的可控性。它为创作者提供了两个关键功能：Edit 和 Retake/Repaint，使得创作过程既精确又灵活。

Edit 功能：精准歌词调整

创作者可以在不改变旋律的情况下，精确修改已生成歌曲的歌词内容、语气或情感表达，确保每行歌词与整体音乐风格完美契合。

Retake/Repaint 功能：灵活创作优化

如果生成的作品不完全符合创作需求，创作者可以使用 Retake 功能重新生成一首风格相似、结构类似的歌曲，或者通过 Repaint 对特定部分（如旋律或歌词）进行局部调整，进一步优化作品。

无论你想微调歌词，还是想重新构思整个作品，ACE-Step 都能帮助创作者在不同创段精确打磨作品。从而让创作更加高效灵活，加速创作的实用性。

3、灵活拓展，覆盖多样创作需求

ACE-Step 拥有高度的可拓展性，支持 LoRA、ControlNet 等主流微调方式，轻松适配多种音乐创作场景，满足个性化定制需求。

LoRA 微调（定制音乐风格）：通过 LoRA 微调技术，ACE-Step 可以根据创作者的需求进行特定风格的定制化训练，如生成符合 rap 风格的歌词，确保输出内容与目标风格高度一致。
ControlNet 微调（人声驱动伴奏生成）：结合 ControlNet 技术，ACE-Step 能根据输入的旋律或人声自动生成相匹配的伴奏，提升音乐创作的个性化和灵活性。

三、技术亮点

上述特点的实现得益于 ACE-Step 在技术上的创新，借助先进的架构和训练策略，显著提升了生成质量、训练效率和模型的可扩展性，同时确保了音乐生成的速度、质量与灵活性。

ACE-Step 模型架构图

技术亮点一：一阶段 DiT 架构 + REPA 提升音乐结构性

传统的开源音乐生成模型大多采用两阶段架构：第一阶段生成语义代码，第二阶段通过 Diffusion 生成音频。这种方法在歌词发音的准确性和旋律的连贯性上存在限制，尤其在歌声的清晰度和乐器细节的表现上不足。

ACE-Step 采用一阶段 DiT 架构，并结合 REPA 技术，通过语义约束提升生成的音频质量。这个创新解决了传统模型的瓶颈，使得音频生成更加精确，且无需依赖声伴分离技术或歌词时间戳对齐，极大提高了生成的灵活性和训练效率。

技术亮点二：DCAE 与线性 Transformer 结合，提升生成速度与效率

在音频生成方面，ACE-Step 采用 DCAE（深度压缩自编码器）技术，通过压缩 Mel 频率，将 44.1kHz 的数据压缩至原来的 1/8，既减少了数据量，又保持了音质的细腻度，显著提升了训练收敛速度和生成效率。

同时，ACE-Step 引入线性 Transformer 架构，减少了显存占用并优化了计算复杂度，提高了训练的稳定性和效率。这两项技术不仅加速了音频生成，还能处理更长的音频数据，满足大规模创作的需求。

四、本地部署

1、环境准备

ACE-Step推荐使用Python 3.10版本，并建议通过虚拟环境（Conda或venv）管理项目依赖

# 使用Conda创建环境
conda create -n ace python=3.10 -y
conda activate ace

#conda remove --name ace --all
# 根据自己的cuda选择，我的是12.0，但是没有cu120 所以我们用cu121 这里安装不好，会导致错误
pip install torch torchaudio --index-url https://download.pytorch.org/whl/cu121

2、下载源码与依耐安装

git clone https://github.com/ace-step/ACE-Step.git
cd ACE-Step

#pip install -r requirements.txt
pip install -e .

3、界面汉化

汉化界面在路径/workspace/ACE-Step/acestep/ui/components.py

components.py 修改，大部分都label，button 上的字符修改为中文即可

csdn 下载地址

https://download.csdn.net/download/jiangkp/90903826https://download.csdn.net/download/jiangkp/90903826

4、运行及使用

frpc_linux_amd64_v0.3下载地址：

https://download.csdn.net/download/jiangkp/90568217https://download.csdn.net/download/jiangkp/90568217

上传frpc_linux_amd64_v0.3
cp frpc_linux_amd64_v0.3 /root/.cache/huggingface/gradio/frpc
chmod +x /root/.cache/huggingface/gradio/frpc/frpc_linux_amd64_v0.3

添加环境变量
nano ~/.bashrc
export HF_ENDPOINT=https://hf-mirror.com
export PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True
source ~/.bashrc

# 执行
acestep --checkpoint_path /workspace/ACE-Step/checkpoint --port 7865 --device_id 0  --share true --torch_compile true --bf16 false

用户可以通过以下参数调整模型行为：

--checkpoint_path：指定模型检查点路径（默认自动下载）

--server_name：设置Gradio服务器绑定的IP地址或主机名

--port：指定运行Gradio服务器的端口

--device_id：指定使用的GPU设备ID

--share：启用Gradio共享链接

--bf16：使用bfloat16精度加速推理

--torch_compile：使用torch.compile()优化模型（Windows不支持）

5、高级使用与界面指南

浏览器输入

https://pwqmct--7865.ap-shanghai.cloudstudio.work/

或者

ACE-Step Model 1.0 DEMOhttps://16ae346bf063f39247.gradio.live/

两个网址都可以在外网访问

ACE-Step提供了多个标签页以支持不同的音乐生成和编辑任务：

Text2Music标签页：基于文本描述生成音乐，支持通过标签、歌词和音频时长等参数控制生成结果。

Retake标签页：使用不同种子重新生成音乐，实现基于原始生成的变体创作。

Repainting标签页：选择性地重新生成音乐的特定部分，通过指定开始和结束时间实现局部修改。

Edit标签页：通过修改标签或歌词来调整现有音乐，支持仅修改歌词（保持旋律）或全面混音（改变旋律）两种模式。

Extend标签页：在现有音乐作品的开头或结尾添加音乐，扩展音乐长度。

tag 输入：funk, pop, soul, rock, melodic, guitar, drums, bass, keyboard, percussion, 105 BPM, energetic, upbeat, groovy, vibrant, dynamic

6、界面讲解

给大家推荐一个视频，不是我的视频，只是不想写这部分，大家看看

想亲手谱写一首动听的歌曲吗？ACE-Step来帮你！1分钟原创歌曲创作！用法简单，一键启动！_哔哩哔哩_bilibili想写歌的不可错过！-----------------------------------------------------------------------------夸克：https://pan.quark.cn/s/3cc0297d5f3e 提取码：SsfF💥WildCard | 虚拟Visa卡(全球通用)：https://bewildcard.com/i/0YEZDB4X💥PS A, 视频播放量 750、弹幕量 3、点赞数 32、投硬币枚数 21、收藏人数 50、转发人数 7, 视频作者十个骑士, 作者简介，相关视频：AI生成歌曲工具整合包ACE-Step，Suno平替，可以通过提示词和歌词生成歌曲，工具已打包好，一键启动即可，最强AI图片数字人，腾讯Sonic，中文对口型效果超强！音频驱动人物图片说话+唱歌！一键启动整合包! | 数字人 | Avatar，最新AI数字人模型，OmniHuman-1太强大了，面部细节太牛了，简直颠覆认知了！，最强AI纯音乐生成，InspireMusic，阿里开源, 超级强大！一键启动整合包!，f5-tts-20250508声音克隆最新一键整合包,支持自定义停顿时长,新版速度更快,断句更好，实时AI演唱永不跑掉感受科技的力量家人们实时Ai出来了随时暂停随时开启可以实时呈现出人声和ai的演唱嘴巴停ai就停！ #实时ai #ai唱歌生成，阿里黑科技！AI自动剪辑视频神器，1小时工作量缩到3分钟（附保姆级避坑指南），免费开源零基础也能秒变音乐制作人！ACE-Step AI 音乐生成器， LLM歌词创作+歌曲数字人 ComfyUI本地部署教程，AI原创歌曲且替换成自己的声音只需10分钟，FramePack最新整合包，增加首尾帧功能，速度提高40%，6G显卡可用https://www.bilibili.com/video/BV1yFEBzkEaM?t=221.1

7、deepseek 生成歌词

输入：

模仿刀郎的曲风
创作一首中年男人相关的歌曲
表达男人们无奈的状态
歌曲的名字要有深度
歌曲的内容要有一些中国历史典故，历史文化，名著，历史书籍的元素
歌曲中不要出来刀郎和他代表作的名字
支持 [verse]、[chorus] 和 [bridge] 等歌词结构标签来分隔歌词的不同部分

输出

《长河饮马人》

[verse]
铜镜锈蚀了少年眉锋
铁衣苔痕爬上旧缰绳
太史公笔尖悬着三十八根耻骨
我们却把傲骨折成算珠声声

[verse]
案头炊烟熏黄了出师表
锦官城的柏叶落进降压药
浔阳江头那把无弦琵琶
在房贷单上拨响四更雨潇潇

[chorus]
赤壁火帆烧成眼角灰
白发三千丈是降书垂
乌江不渡非剑刃卷
兰亭墨迹洇开在体检报告边

[bridge]
范公舟枕着洞庭忧乐
韩愈云横不过秦岭车贷
陶公菊酿成酒桌恭维
谁在青铜鼎纹里刻下柴米年轮

[verse]
河西走廊驼铃碎成打卡钟
阳关三叠叠不起学区房价重
敦煌飞天袖间漏下的星斗
坠在啤酒沫里泛起盐碱地的梦

[chorus]
赤壁火帆烧成眼角灰
白发三千丈是降书垂
乌江不渡非剑刃卷
兰亭墨迹洇开在体检报告边

[outro]
雁门关外的羌笛啊
吹皱了健身房的镜
当汗青册页被风揉碎
我们弯腰拾起
满地稗草般的
年　　　岁