27.3k stars!Fish Speech:开源 TTS 的天花板,10 秒克隆任意声音!
Fish Speech开源 TTS 的天花板10 秒克隆任意声音语音合成这件事曾经是大厂的专属游乐场。现在一个开源项目用 2700 万行代码和 1000 万小时音频数据把这道门彻底踹开了。一、它解决了什么问题长期以来高质量 TTS文字转语音领域存在几道根深蒂固的门槛1. 效果差距悬殊。开源方案的自然度、情感丰富度与 ElevenLabs、Azure TTS 等商业产品相比始终有一道明显的听感鸿沟。2. 语音克隆门槛高。想克隆一个人的声音要么需要大量干净的录音数据要么需要专门的微调流程普通人根本玩不转。3. 多语言处理麻烦。传统 TTS 依赖音素词典和语种特定的预处理切换语言就要换模型中英混读更是老大难。4. 情感控制粗糙。生成语音只能控制语速、音调等基础参数想让模型笑着说或悄悄耳语基本没有门路。Fish Speech 的出现把这四道门同时打开了。二、Fish Speech 是什么Fish Speech 是由 Fish Audio 团队开源的 SOTA 级文字转语音系统目前 GitHub 已获2.7 万 Star是当前开源 TTS 领域最受关注的项目之一。最新版本为Fish Audio S2它在以下几项核心基准测试中击败了包括闭源系统在内的所有对手基准测试Fish Audio S2对比最强闭源Seed-TTS Eval WER中文0.54%Qwen3-TTS 0.77%Seed-TTS Eval WER英文0.99%MiniMax Speech-02 0.99%Audio Turing Test0.515Seed-TTS 0.417低 24%EmergentTTS-Eval 胜率81.88%—简单说在语音自然度的图灵测试中听 Fish Speech S2 生成的语音超过一半的人认为是真人录音。核心技术亮点① 双自回归架构Dual-ARS2 将语音生成拆分为两个阶段慢速 AR4B 参数负责沿时间轴预测语义编码快速 AR400M 参数在每个时间步填充 9 个残差编码本。这种非对称设计在保证音质的同时大幅提升了推理效率。② 强化学习对齐GRPOS2 采用 GRPO 进行后训练对齐奖励信号同时包含语义准确性、指令遵循、音质偏好和音色相似度让模型生成的语音更加稳定、自然。③ 自然语言情感标签这是 S2 最直观的惊喜功能。你可以在文本中任意位置插入自由格式的控制标签比如今天的新闻[用播音腔]来了——[laugh]其实我也不知道该说什么。支持[laugh]、[whispers]、[super happy]、[悲伤]等任意自然语言描述精确控制到词级别。④ 零样本声音克隆只需1030 秒的参考音频S2 即可克隆对应音色无需任何微调或额外训练。⑤ 50 语言无需音素S2 直接处理原始文本不依赖任何音素词典或语种预处理中英日韩法德阿拉伯语等 50 语言开箱即用中英混读无缝切换。⑥ 原生多说话人生成一次请求中即可生成多位说话人的对话通过|speaker:0||speaker:1|等 token 控制无需分别上传参考音频。三、怎么用方式 A直接体验最快0 配置访问官方在线演示fish.audio输入文本即可试听也可上传参考音频体验声音克隆。方式 B本地部署自托管硬件要求GPU 显存 ≥ 24GB推理Linux / WSL 环境。⚠️ 注意S2 旗舰版需要 24GB 显存RTX 306012GB建议使用 S1-mini0.5B 蒸馏版HuggingFace 可下载。Step 1克隆仓库gitclone https://github.com/fishaudio/fish-speech.gitcdfish-speechStep 2安装依赖以 Conda 为例# 安装系统依赖aptinstallportaudio19-dev libsox-dev ffmpeg# 创建虚拟环境conda create-nfish-speechpython3.12conda activate fish-speech# 安装 GPU 版本按你的 CUDA 版本选择 cu126/cu128/cu129pipinstall-e.[cu129]Step 3启动 WebUI# 直接启动python-mtools.run_webui# 或使用 Docker推荐生产环境dockercompose--profilewebui up打开浏览器访问http://localhost:7860即可使用图形界面进行 TTS 和声音克隆。Step 4API 调用集成到自己的应用# 启动 API 服务器dockercompose--profileserver up# 访问地址http://localhost:8080也可以使用官方 Python SDKpipinstallfish-audio-sdkfromfish_audio_sdkimportSession,TTSRequest sessionSession(YOUR_API_KEY)# fish.audio 申请免费 keywithopen(output.mp3,wb)asf:forchunkinsession.tts(TTSRequest(text你好世界)):f.write(chunk)方式 C声音克隆完整流程准备 1030 秒的干净参考音频WAV/MP3无背景噪音在 WebUI 中上传参考音频输入目标文本点击生成下载输出音频就这三步不需要任何训练或微调。四、总结Fish Speech S2 代表了当前开源 TTS 的最高水准。它不只是在某一项指标上领先而是在语音自然度、情感控制、多语言支持、声音克隆速度、推理效率这五个维度上同时达到或超越了闭源商业系统的水平——而且完全开源、可本地部署、无数据上传风险。对于内容创作者它是一个极低成本的专业配音工具对于开发者它是一个可以直接接入产品的语音合成引擎对于研究者它提供了完整的训练和微调链路。唯一的门槛是推理旗舰版 S2 对显存有较高要求24GB。显存受限的用户可以先用 S1-mini 过渡或直接调用 fish.audio 的云端 API。一句话评价TTS 领域的 Llama 时刻已经到来。项目地址https://github.com/fishaudio/fish-speech在线体验https://fish.audio文档https://speech.fish.audio许可证Fish Audio Research License商业使用需联系授权
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2421888.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!