阶跃 StepAudio 2.5 ASR 上线！500TPS 极速推理，30分钟语音“秒级转写”

news2026/5/6 11:01:26

语音 Agent 首字响应慢很多人以为是 LLM 的锅。其实真正的延时瓶颈常在ASR自动语音识别传统的逐 token 串行输出——一段 5 分钟音频要等几十秒才能拿到完整转写结果整条链路卡在这一步。StepAudio 2.5 ASR 引入 MTP 技术单步并行预测多个 Token大幅削减串行等待周期5 分钟音频 1 秒出头即可出完整转写结果。核心亮点1. 极速推理速度提升 400%成本直降 80%阶跃星辰全球首次将大语言模型领域的Multi-Token PredictionMTP多 Token 预测技术引入语音识别领域彻底重构 ASR 解码流水线。传统 ASR 受限于自回归架构必须逐 Token 串行生成——每个字必须等上一个字出来才能开始预测。StepAudio 2.5 ASR 引入 MTP 后单步可并行预测多个 Token通过候选验证机制大幅削减等待周期让 ASR 快如闪电。实测数据指标数值算力成本直降 80%API 定价 0.15 元/小时刷新行业底价。RTF引擎侧0.0053即转写1 小时音频仅需约19 秒吞吐量提升400%同等算力下并发路数提升至原先 5 倍时延降低60%5 分钟音频 1 秒内出结果推理速度极限500 tokens/s什么是RTFRTFReal-Time Factor实时率是语音识别领域的标准速度指标表示处理 1 秒音频所需的计算时间。RTF 越小越快RTF 0.0053 意味着处理 1 秒音频只需 0.0053 秒转写 1 小时音频约 19 秒即可完成。测试说明以下数据均为引擎侧 RTF测试条件为单并发推理多条30s音频后取RTF均值除 Doubao ASR 走官方 API 外其余模型均在本地 H800 卡推理测试环境存在差异供参考。竞品RTF对比StepAudio 2.5 ASR 推理速度是第二名 Qwen3 ASR 的近2 倍是 VibeVoice、Doubao 等主流方案的1020 倍。2. SOTA 转写精度基于4B 参数深度优化在新闻、会议、强噪声等多场景下中英文错误率全面刷新行业基线。价格与接入API 定价0.15 元/小时仅为上代Step ASR 2 的 1/10。Step Plan 用户可直接使用。接入API 调用中替换模型名为stepaudio-2.5-asr即可迁移接入参考下方API文档适用场景Voice Agent、大规模转写服务、实时字幕/直播。体验入口阶跃星辰开放平台(API文档)https://platform.stepfun.com/docs/zh/guides/models/stepaudio-2.5-asrStep Planhttps://platform.stepfun.com/docs/zh/step-plan/integrations/audio-api在线体验https://www.stepfun.com/studio/audio?tabspeech-recognitionDemo Pagehttps://stepaudiollm.github.io/step-audio-2.5-asrModel Cardhttps://stepaudiollm.github.io/step-audio-2.5-asr/model-card

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2553970.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！