测评 ASR 歌词生成模型

news2026/4/4 21:01:39

1. 测评背景与目标业务需求目前有大批量的 MP3 音频需要匹配歌词。网络公开渠道能爬取到的歌词占比不足 50%因此必须采用 ASR自动语音识别生成模式来补全缺口。核心痛点现有的商业 API 调用成本较高且在带伴奏的音乐场景下准确性一般。需要探索并验证一套低成本、高准确性的替代方案。2. 测评对象与参考标准参测模型whisper-large-v3 (开源本地部署)Qwen3-ASR-1.7B (开源本地部署)whisper-1 (OpenAI 商业 API)参考榜单榜单数据多基于日常讲话测试相对唱歌带复杂背景音来说更容易识别因此榜单标称的 WER词错误率通常会低于本次音乐测评的实际表现。HuggingFace Open ASR Leaderboard:https://huggingface.co/spaces/hf-audio/open_asr_leaderboardVoiceWriter Leaderboard:https://voicewriter.io/speech-recognition-leaderboard13. 测评环境与准备工作硬件与平台云服务商阿里云 DSW (https://pai.console.aliyun.com)实例配置ecs.gn7i-c8g1.2xlarge (8 vCPU, 30 GiB 内存, NVIDIA A10 * 1)基础镜像dsw-registry-vpc.cn-guangzhou.cr.aliyuncs.com/pai/modelscope:1.35.0-pytorch2.3.1tensorflow2.16.1-gpu-py311-cu121-ubuntu22.04基础环境与全局变量配置为了保障国内网络环境下 HuggingFace 的连通性并确保模型与密钥正确保存在 DSW 的永久目录 (/mnt/workspace)需配置以下环境变量及 Git# Git 初始化与 SSH 配置aptupdateaptinstallgit-ygitconfig--globaluser.name你的名字gitconfig--globaluser.emailxxxqq.comgitconfig--globalcolor.uitruemkdir-p/mnt/workspace/.ssh_backup ssh-keygen-ted25519-Cxxxqq.com-f/mnt/workspace/.ssh_backup/id_ed25519mkdir-p~/.sshln-sf/mnt/workspace/.ssh_backup/id_ed25519.pub ~/.ssh/id_ed25519.pubchmod700~/.sshchmod600~/.ssh/id_ed25519chmod644~/.ssh/id_ed25519.pubssh-Tgitgithub.com# 环境变量配置exportHF_ENDPOINThttps://hf-mirror.comexportHF_HOME/mnt/workspace/huggingface_cacheexportTORCH_HOME/mnt/workspace/torch_cacheexportXDG_CACHE_HOME/mnt/workspace/general_cacheexportDEMUCS_REPO/mnt/workspace/demucs_models依赖安装与冲突解决预装镜像缺失部分音频处理模型如 Demucs且存在版本冲突需通过以下脚本进行修正# 1. 安装系统级音频依赖sudoapt-getupdatesudoapt-getinstall-yffmpeg# 2. 安装核心算法库推荐使用阿里云内网源加速pipinstalljiwer demucs-ihttp://mirrors.cloud.aliyuncs.com/pypi/simple/ --trusted-host mirrors.cloud.aliyuncs.com pipinstallwhisperx3.1.1-ihttp://mirrors.cloud.aliyuncs.com/pypi/simple/ --trusted-host mirrors.cloud.aliyuncs.com# 3. 解决 NumPy 与 SciPy 版本冲突pipinstallnumpy2.0.0scipy1.13.0-ihttp://mirrors.cloud.aliyuncs.com/pypi/simple/ --trusted-host mirrors.cloud.aliyuncs.com# 4. 解决 Lightning 与 Transformers 冲突pip uninstall-ylightning pytorch-lightning lightning-fabric pipinstalllightning2.1.4pytorch-lightning2.1.4lightning-fabric2.1.4-ihttp://mirrors.cloud.aliyuncs.com/pypi/simple/ --trusted-host mirrors.cloud.aliyuncs.com pipinstalltransformers4.45.2# 5. Qwen3-ASR 依赖安装gitclone https://github.com/QwenLM/Qwen3-ASR.git pipinstall-e./Qwen3-ASR4. 测评执行过程脚本地址https://github.com/hanjg/agent_test/数据准备选用 HuggingFace 的 JamendoLyrics 数据集。执行下载脚本注部分模型需鉴权请务必携带HF_TOKEN以防限流。HF_TOKENxxx python asr_download_jamendolyrics.py开源模型测评 (本地部署)对下载的 WAV 文件进行人声分离、压缩随后调用本地 ASR 模型提取时间戳。将提取出的文本进行归一化后与测试集基准对比计算 MER 等指标。HF_TOKENxxx python asr_eval.py--modelwhisper-large-v3 --vocal-separation--compress--vad-onset0.300--vad-offset0.200闭源模型测评 (API 调用)使用已完成人声分离和压缩的音频请求 OpenAI API获取返回的时间戳与文本执行相同的归一化与对比逻辑。代码示例如下具体脚本请使用asr_compare_words.pyHF_TOKENxxx python asr_eval.py--modelwhisper-large-v3 --vocal-separation--compress--vad-onset0.300--vad-offset0.2005. 测评结论Round 1 初步结论评估维度结果分析模型综合效果Whisper-large-v3表现最优相较于商业版 Whisper-1成本仅为其 12%WER词错误率降低 24%WAE 提高 36%。Qwen3-ASR-1.7B表现欠佳虽在日常交流中表现良好但在音乐领域显存占用大且识别率低。成本估算本地大模型极具性价比。本地部署 Whisper-large-v3 处理单首歌曲约需 8.628 秒按 GPU $1/小时计算成本约0.0167元/首。而调用 Whisper-1 API 处理同等规模数据约21万首总成本需 $5284折合0.1747元/首。预处理影响人声分离能极其显著地降低 WER而将音频压缩至 64k对最终识别结果的影响微乎其微可用于节省存储与传输带宽。Round 2 归一化与对齐优化在排查 Round 1 数据时AI 分析发现原有测评代码在计算 WER 和 MAE 时存在严重的归一化与对齐缺陷如多语言哼唱词漏过滤、连写拟声词拆分导致误判、SequenceMatcher 跨段对齐错位、以及未剥离 Whisper 的幻觉文字等。针对上述问题我们在 Round 2 中进行了如下工程优化引入DTW (Dynamic Time Warping) 对齐替代 SequenceMatcher彻底解决重复副歌导致的跨段错配与 MAE 虚高现象。统一双端Filler / 哼唱词处理规则正则匹配连写拟声词拆分。增加幻觉文字检测与剥离逻辑如自动过滤无中生有的 “Thank you”、“Untertitelung” 等。丰富测评维度新增 S/I/D Rate、Median AE 以及 Word Boundary Tolerance (±0.3s/±0.5s)。最终结论在开启人声分离的前提下Whisper-large-v3 的 WER 和 MAE 均显著优于商业版 Whisper-1且 MAE 指标已完全达到 KTV 滚动歌词的标准要求。补充指标详细数据6. 附业界与打榜平台 ASR 测评标准为了确保测评的严谨性业界标准的 ASR 模型测评通常会严格遵循以下四个维度的考量多维度的数据集矩阵 (Diverse Datasets)测评不会依赖单一测试集通常会组合使用有声书 (LibriSpeech)、电话会议 (Switchboard)、日常对话 (Common Voice)、带噪环境以及多语种 (FLEURS) 数据集以全面压测模型的泛化能力。严谨的文本归一化 (Text Normalization)在对比标签前必须对预测文本和真实标签 (Ground Truth) 进行深度清洗。包括统一转小写、去除标点符号、统一数字形态如 “100” 统一为 “one hundred”、以及简繁体转换等。否则计算出的 WER 将包含大量“假错误”。标准的量化指标 (Standardized Metrics)文本准确率主要使用WER(Word Error Rate针对英文) 或CER(Character Error Rate针对中文)。时间戳准确率则计算预测与真实的MAE(平均绝对误差)或设定一个时间容忍窗口例如 50ms 视为准确进而计算 Precision、Recall 和 F1 Score。工程性能评估 (Performance Metrics)除准确度外模型吞吐量同样关键。业界必然会测量RTF(Real-Time Factor处理 1 秒音频所需的秒数) 以及VRAM(峰值显存占用)以此来评估工程部署的真实成本。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2483450.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！