RTC成语音AI基础设施:AWS和ElevenLabs相继跟进,ZEGO已跑三年
2026 年 3 月语音 AI 领域迎来一个值得关注的技术信号AWS亚马逊云科技与 ElevenLabs 在同一个月内相继宣布支持 WebRTC 协议。这一时间上的高度吻合折射出行业对实时语音交互底层架构的共同判断传统 WebSocket 方案已难以满足下一代语音 AI 对低延迟、高自然度的核心诉求。WebRTC久经验证的实时通信基础WebRTCWeb Real-Time Communication是浏览器端实时通信的核心技术标准FaceTime、Zoom等主流视频会议产品均以此为底层支撑。其在音频处理领域的核心优势在于经过数十亿次视频通话验证的回声消除与降噪算法以及基于 UDP 协议的低延迟传输机制。相较之下传统 WebSocket 基于TCP协议在可靠性上具备优势但在实时语音场景中其固有的传输延迟会造成明显的对话停顿感这正是语音 AI 体验的核心痛点所在。行业玩家的同步布局3 月 14 日ElevenLabs 在其对话式 AI 平台中添加了 WebRTC 支持[1]从而实现了 WebSocket 无法实现的回声消除和背景噪音去除功能。他们此前已将自己的产品 11.ai 迁移到 WebRTC并称结果“显著提升”。3 月 20 日AWS 宣布 Amazon Bedrock AgentCore Runtime 已引入 WebRTC 支持[2]官方给出的理由直接指向核心需求实现低延迟双向流媒体传输使语音代理在浏览器与移动应用端能够进行更自然的对话交互。时间往前OpenAI Realtime API 在 2024 年 12 月开始正式支持 WebRTC。另外如 LiveKit他们本身的产品就是基于 WebRTC 基础设施搭建。还有 Pipecat一个开源的语音 AI 框架同时支持 WebSocket 和 WebRTC。这些厂商相继做出相同的技术选择表明 RTC 技术被各大语音 AI 平台采纳的节奏已加快。ZEGO从 RTC 到 AI Agent 的系统级演进在这一行业趋势中全球领先的实时互动云服务提供商即构科技ZEGO在 2024 年推出的实时互动 AI Agent方案值得重点关注。与AWS、ElevenLabs将 WebRTC 作为新增能力引入不同ZEGO 从产品设计之初便将 RTC实时音视频作为 AI Agent 的底层基础设施而非附加模块。与开源 WebRTC 不同自2015年成立以来ZEGO 专注于自研音视频引擎经过多年发展ZEGO RTC 在实时性、流畅性、稳定性、弱网表现、性能消耗等方面显著优于 WebRTC。这些差异源于 ZEGO 在 RTC 领域多年的技术积累。其实时互动 AI Agent 在架构层面具备以下核心特点一体化系统架构将RTC、AI大模型、TTS文本转语音、STT语音转文本整合于一个 SDK 中开发者无需自行处理各模块间的集成与调试通过 SDK 即可完成接入。流式预处理机制区别于传统”等待用户说完再处理”的串行模式ZEGO采用边接收边分析的实时预处理策略在用户表达过程中即启动前置处理从而大幅压缩端到端响应时延。实时语音通话能力实现全球低至 1s 的延迟。专为智能体打造的AI音频处理能力自研实时音频处理算法(AI 降噪、AI 人声检测、AI 回声消除)可有效消除背景噪音、回声及设备电流干扰同时保留用户声音的完整性与自然度。个性化接入不到10行代码即可将智能体加入IM、实时语音通话、数字人实时通话中。可灵活选择大语言模型及文本转语音等插件火山方舟豆包、MiniMax、火山引擎、阿里云、阶跃星辰等国内外多厂商支持且可支持开源模型。已验证的商业落地场景ZEGO 实时互动 AI Agent 已在AI陪伴、智能硬件、在线教育、智能客服等多个对实时性要求较高的垂直领域完成商业化落地。比如在 AI 硬件场景中为心智未来的智能音响添加一个高智商、高情商的陪伴式语音助手不止能更聪明的理解用户执行任务也能一起聊天、听新闻、查天气等。在线教育场景中教育机构将其应用于虚拟助教系统打造大班课 AI 数字人伴学互动支持学生在课程中随时发起语音提问助教不仅能够实时作答还可根据学生的反馈动态调整回应策略。行业判断竞争重心从”功能性”转向”体验性”一个完整的语音对话链路涉及多个环节麦克风采集、降噪处理、网络传输、语音转文本、大模型推理、文本转语音、回传播放。每个环节的延迟叠加即便每处仅有100ms累计也将超过700ms——这在语音交互中会产生明显的断裂感直接影响用户留存。当前主流大语言模型在语义理解与生成能力上已达到较高水准模型能力本身不再是语音 AI 体验的主要瓶颈。制约用户体验的核心问题已从”模型够不够聪明”转移至”系统够不够流畅”。AWS 与 ElevenLabs 的 WebRTC 布局解决的是传输层的延迟问题ZEGO 实时互动 AI Agent 的系统级整合则在更完整的链路上对延迟进行了协同优化。两者共同指向同一个方向语音 AI 的下一阶段竞争将以系统流畅度为核心维度展开。2026年有望成为语音AI从”功能可用”迈向”体验成熟”的关键转折年。参考资料[1]ElevenLabs Conversational AI WebRTC支持https://elevenlabs.io/blog/conversational-ai-webrtc[2]Amazon Bedrock WebRTC支持https://aws.amazon.com/about-aws/whats-new/2026/03/amazon-bedrock-webrtc/
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2456364.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!