OpenAI发布三款音频模型，差异化布局欲“通吃”语音AI市场，企业用户已抢先测试

news2026/5/8 19:56:21

模型分工与价格昨天凌晨OpenAI发布了GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper三款音频模型。官网称新模型可让开发者构建实时语音产品且已开放测试。这次更新重点是模型场景分工GPT-Realtime-2面向实时语音Agent场景是首个具备“GPT-5级推理”的语音模型GPT-Realtime-Translate面向实时语音翻译场景支持70多种输入语言到13种输出语言GPT-Realtime-Whisper面向实时语音转写。价格方面GPT-Realtime-2按token计费音频输入起价32美元/百万token输出64美元/百万tokenGPT-Realtime-Translate和GPT-Realtime-Whisper按分钟计费分别为0.034美元/分钟和0.017美元/分钟。模型应用案例相关报道显示Zillow、Priceline和德国电信等企业已在测试这些模型这是OpenAI过去一年语音路线的延伸。2024年开放低延迟语音能力2025年8月推出首个正式版Gpt-Realtime今年2月Gpt-Realtime-1.5成上一代主力模型如今2.0版本像是Realtime产品线的升级。GPT-Realtime-2从对话走向执行GPT-Realtime-2能处理复杂请求等解决语音Agent落地问题。它将上下文窗口从32K提升到128K利于长会话。工具调用是更新关键词RealtimeAPI可构建语音体验。美国房地产信息查询网站Zillow用其构建语音助手对抗性测试中电话任务成功率从69%提升到95%FairHousing合规表现更稳定。Booking子公司Priceline也在测试旅游预订中语音Agent有望推进“办事”。德国电信也是客户GPT-Realtime-2有可调推理强度官方测试数据显示其在相关指标上比GPT-Realtime-1.5有提升。GPT-Realtime-Translate主打实时语音到语音翻译适合多种场景能自动识别输入语言输出翻译语音和文本支持70多种输入语言到13种输出语言更接近连续口译形态场景分广播式和对话式覆盖企业付费跨语言场景。GPT-Realtime-Whisper强调实时流式转写可生成字幕等商业门槛最低价格仅0.017美元/分钟。市场格局与竞争三款模型将实时音频拆成三个入口OpenAI欲“通吃”市场。除上述企业还有Vimeo、Glean等也在接入。过去两年ElevenLabs靠AI配音出圈今年2月完成5亿美元D轮融资估值110亿美元近期年化经常性收入超5亿美元。Deepgram长期做语音识别基础设施近年补接口旗下Aura-2文本转语音有低延迟等特点。Cartesia由前斯坦福AI实验室成员创办主打低延迟和实时交互语音产品Sonic系列支持多种语言及控制。早期TTS竞争注重声音如今语音Agent要求更高。OpenAI优势在模型栈可降低成本但语音市场不乏强势玩家。奥特曼称GPT-Realtime-2进入API是重要一步OpenAI还在改进ChatGPT语音体验其新一代语音模型值得期待市场表现。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2595691.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！