清华系团队造出能“边听边说、边看边想“的AI耳朵MiniCPM-o 4.5

news2026/5/13 1:34:44

这项由清华大学自然语言处理实验室THUNLP主导、OpenBMB开源社区联合推出的研究成果于2026年4月30日以预印本形式发布在arXiv平台编号为arXiv:2604.27393。感兴趣的读者可通过这个编号检索到完整论文。**一场关于耳朵和嘴巴能否同时工作的思考**你和朋友打电话时两个人可以同时说话、同时听对方讲话哪怕对方说了让你意外的话你也能立刻插嘴或改变话题。这种能力在人类看来再自然不过但对于目前的AI助手来说却是一道几乎无法逾越的技术高墙。绝大多数AI对话系统的工作方式就像一部老式对讲机它先听你说完按下切换键然后才开始回答。在它回答的那段时间里即便你说了什么新的话、现场发生了什么新的变化它也完全感知不到——它的耳朵和嘴巴是串联在一起、轮流工作的而不是并联在一起、同时运转的。这个问题乍看起来只是个小麻烦但仔细想想它会造成很多现实困境。假设你正在用AI辅助做手术记录手术中途突发状况你喊了一声等等有出血点但AI还在念它上一段话完全没法及时响应。又或者你用AI做实时的体育解说球刚进门AI还在描述上半场的战术等它反应过来全场观众已经欢呼了十秒钟了。正是为了解决这个问题清华大学团队推出了MiniCPM-o 4.5这是他们声称的**全球首个支持实时全双工全模态交互**的开源大型多模态语言模型。全双工就是前面说的耳朵和嘴巴可以同时工作全模态是指它能同时处理图像、视频、语音和文字四种信息通道全部打通。**一、问题根源为什么现有AI的嘴和耳朵不能同时工作**要理解这个研究的价值得先搞清楚为什么现有的AI做不到同时感知和回应。现有的多模态AI系统无论是语音助手还是视频理解模型基本都遵循一种先收集、再处理、再输出的流水线模式。这有点像传统的电话录音客服它先把你说的话完整录下来然后暂停分析你说了什么然后生成一段回复再播放给你听。整个过程是严格分阶段的感知和输出之间有一道清晰的隔断墙。这道墙带来了两个后果。第一个后果研究者称之为阻塞式I/O——就像网络上传文件时必须等上传完才能下载AI必须等把你的话上传完才能开始下载它的回应。第二个后果是被动性——现有AI只会在你明确发出请求时才反应它不会主动根据正在观察到的环境变化说话就像一个只有被问到才开口的沉默服务员而不是一个能主动说先生您的杯子空了的细心侍者。研究团队认为突破这两个局限才是向真正人类化交互迈进的关键。**二、核心技术一根时间轴串起了所有感知和输出**MiniCPM-o 4.5的核心技术叫做**Omni-Flow**全模态流这个名字起得很形象——它把所有的感知输入和语言输出都挂在同一条时间流上像水流一样连续向前推进不再有停顿和切换。用一个更具体的比喻来理解传统AI交互就像古代的驿站传信——信使感知模块把信送到驿站AI大脑AI处理完毕后再派另一个信使输出模块送出去。两个信使是不能同时出发的。而Omni-Flow的做法是把感知和输出都变成了一条双向铁路两个方向的列车可以同时运行互不干扰而且都在同一张地图上知道彼此的位置。技术层面上Omni-Flow把连续的交互过程切分成非常短的时间窗口研究者称之为时间块time chunk。在每一个时间块内AI同时做两件事一是把这段时间新收到的视觉和听觉信息纳入进来二是继续生成输出说话或者写字。当时间块的长度足够短感知和输出就自然形成了实时的并行从外部看起来就像是真正的同时进行。研究团队对这个时间块的长度做了系统性测试分别尝试了1.0秒、0.2秒和0.1秒三种设定。结果发现时间块太短模型每次获得的信息太少无法做出稳定判断1.0秒的设定表现最好在响应及时性和决策质量之间取得了最佳平衡。除了时间粒度研究团队还研究了两个重要的设计细节。第一个是边界显式性——也就是要不要在每个时间块的输入和输出之间加上明确的分隔符号。测试表明加了分隔符的模型表现明显更好因为这帮助AI清楚地区分我正在收到的新信息和我正在生成的输出避免了混淆。第二个是控制与生成的解耦——研究者发现让AI先用一个专门的控制信号决定此刻是否应该开口说话然后再决定说什么比把这两个决策合并成一个预测要稳定得多。这就像好的演讲者会先在脑子里判断现在是不是该说话的时机然后才去想说什么内容而不是两件事同时乱成一团。**三、说话的艺术让语音输出和现实时间保持同步**有了同时感知和说话的能力之后一个新问题出现了如何确保AI说的每一句话都和它当前正在看到、听到的东西紧密匹配这听起来可能不是问题但实际上很棘手。AI生成文字的速度和人说话的速度并不相同——有时候AI在一秒内就能想好要说的五个词但要把这五个词说出来可能需要两秒钟。如果AI一直把想好的话堆积起来、等到播放时才慢慢放出那么你在听到的语音实际上对应的是几秒前的思考状态就像在看一部严重口型对不上的配音电影——说的和在演的完全是两回事。为了解决这个问题研究团队提出了一个叫**TAIL**时间对齐交织Time-Aligned Interleaving的策略。用烹饪来打比方传统方法是先把所有的菜炒完再一起端上桌TAIL的做法是根据每道菜的烹饪时间动态调整下锅顺序确保每一道菜都恰好在最佳时机出锅上桌。具体来说TAIL会追踪整个交互过程中文字生成和语音播放之间的累积差值。如果此前几个时间块里文字生成得太多导致语音播放已经落后了TAIL就会在当前时间块里少生成一些文字让语音播放有机会追上来。反之亦然。这样一来AI嘴里说出的话始终对应着它当前所处的感知状态不会出现人已经在讨论球门前的进攻AI还在说守门员的站位这种时间错位。TAIL还加入了一个有限前瞻机制——AI允许在生成当前语音时参考紧接在后面的极少量文字。这是因为语言本身有上下文依赖比如英文中the这个词在the apple和the car里的发音是不同的没有一点点向前看的能力语音质量会下降。但这个前瞻被严格限制在很小范围内不会破坏整体的时间对齐效果。**四、AI的身体结构端到端的全模态架构**MiniCPM-o 4.5的整个架构就像一个全感官打通的生命体所有信息处理都通过同一套神经网络连通、协同工作而不是几个独立模块拼凑在一起。视觉感知部分使用了一个叫SigLIP ViT的视觉编码器参数规模约4亿它负责把输入的图像或视频帧转换为AI可以理解的视觉语言。为了节省计算资源研究团队设计了一个16倍压缩率的重采样模块——每张图像切片原本会产生1024个特征词元token可以理解为AI读取信息的基本单位经过压缩后只剩64个大大减轻了后续处理的负担同时保留了足够的视觉细节。在全双工流式模式下最大分辨率为448×448像素在传统的非流式模式下则可以支持高达2240×2240像素的高清输入。听觉感知部分使用了Whisper Medium作为音频编码器参数规模约3亿以流式分块的方式处理输入音频每秒生成50个特征词元随后通过一个两层的神经网络将其压缩为每秒10个词元传给主干模型实现5倍的时间压缩。整个系统的大脑是Qwen3-8B一个拥有约82亿参数的大型语言模型负责理解所有输入信息并决定输出什么文字内容。关键的设计决策是这个大脑只负责生成文字词元而不需要直接生成语音词元。研究者指出让语言模型直接生成语音词元通常每秒约25个会严重拖慢整体效率同时还会损害语言理解能力本身——毕竟让一个文学博士同时跑百米、还要保持思维清晰难度会倍增。语音输出则由一个专门的轻量级语音词元解码器负责参数规模仅约3亿基于Llama架构构建。它会接收主语言模型生成的文字及对应的隐藏状态hidden states可以理解为语言模型思考过程中产生的中间信号将两者融合后生成语音符号序列。这样的好处是语音的韵律、情感、重音等特性可以从语言模型丰富的语境理解中汲取而专门的语音解码器则专注于发音本身各司其职。最后还有一个流式流匹配解码器streaming flow-matching decoder把语音符号序列转换为真实的音频波形支持根据参考音频实现声音克隆。所有这些组件——视觉编码器、音频编码器、语言模型主干、语音解码器——都通过词元级别的隐藏状态连接形成一个可以端到端联合训练的整体。用一句话总结整个系统就像一个有机体所有感官和表达能力都通过同一套神经系统传递和整合信息而不是几台独立机器通过管道连接。**五、喂给AI的食材大规模多模态训练数据**再好的架构没有高质量的训练数据也是空谈。MiniCPM-o 4.5的数据工作相当细致横跨语音、视觉语言和全模态全双工三个维度。语音数据方面团队处理了数百万小时的无标注自然语音素材来源多样涵盖不同口音、不同说话风格和不同主题的对话从中生成了用于零样本语音合成Zero-shot TTS、自动语音识别ASR和多轮对话的训练集。此外还有一批由专业配音演员在录音室录制的高质量对话语料——演员们不是机械地朗读剧本而是以真实的对话风格表演加入了情绪变化、语速调整和即兴表达使得这批数据极具自然语音的真实质感。视觉语言数据方面团队基于此前的MiniCPM-V 4.5数据体系进行了大幅扩充和质量升级。他们更新了图像标注生成流程改进了图文相关性的过滤机制。在文档和OCR数据方面引入了一种相关性感知遮蔽策略不再随机遮蔽文字区域而是优先遮蔽与图表、图像内容关联更密切的区域迫使模型学会真正理解视觉内容而不是单纯靠文字上下文猜答案。视频数据方面团队专门构建了一个密集视频描述数据集提供对时间事件、人物动作和场景变化的连续细粒度描述强化了模型对跨帧时序的理解能力。全模态全双工数据方面训练样本同时包含视觉输入、音频输入、文字输出和语音输出且每一条信息都带有时间戳标注。大规模网络音视频数据首先被自动过滤排除了单说话人、音视频关联度低、含有字幕水印或画面质量差的片段。此外团队还手工设计了多种特定的全双工交互场景制作了高质量的标注样本支撑连续场景描述和主动提醒等高级能力。**六、循序渐进的训练流程**数据准备好之后如何训练也有讲究。MiniCPM-o 4.5的训练分为四个阶段逐步叠加能力。第一阶段是语音预训练。以MiniCPM-V 4.5的视觉语言预训练检查点为基础冻结已有参数只训练新添加的音频处理相关模块。这个阶段的目标是打通音频编码器和语言模型主干之间的语言让语言模型能够理解音频信号同时也让语音解码器学会把语言模型的隐藏状态转化为有语义和韵律的语音符号。第二阶段是联合预训练。解冻所有参数在视觉语言、语音和全模态数据的混合语料上统一训练。这个阶段的数据配比经过精心设计每个训练步骤都保持固定的模态比例确保各模态之间的均衡学习避免某一模态的数据过多而导致其他模态能力退化。第三阶段是联合有监督微调。分两步进行先用大规模指令跟随数据做广泛的能力适配再用高质量人工标注数据做细粒度的行为优化。为了支持部署时的灵活调整训练时还刻意混入了不同分辨率和帧率的视频数据。第四阶段是强化学习。团队使用了GRPO算法一种无需价值网络的策略梯度强化学习方法来提升推理能力和指令遵循能力奖励信号来自答案准确率和格式合规性。为了提高计算效率还引入了一种平滑长度奖励机制对答对问题且回答更简洁的情形给予更高奖励但不惩罚必要的详细推理步骤。团队还特别引入了RLAIF-V技术来降低幻觉AI编造虚假信息的概率并发现从图像文本数据上学到的反幻觉能力可以自然迁移到全双工流式交互场景中——这是一个有趣的发现意味着幻觉问题的解法具有跨场景的通用性。**七、测试成绩从视觉理解到语音生成的全面评估**MiniCPM-o 4.5接受了横跨视觉语言理解、语音理解与生成、文字能力和全模态流式交互四大类别的系统性评测。视觉语言理解方面在包含8个主流多模态基准测试的OpenCompass综合榜单上MiniCPM-o 4.5在普通指令模式下得分77.6推理思考模式下达到78.2。作为一个9B参数规模的模型它超越了同规模的InternVL3.5-8B和Qwen3-VL-8B也超越了参数规模更大的Qwen3-Omni-30B-A3B约300亿参数每次激活约30亿并接近谷歌的Gemini 2.5 Flash这样的顶级商业模型。在文档理解和OCR光学字符识别领域MiniCPM-o 4.5的表现尤为突出——在OmniDocBench英文和中文评测上它以压倒性优势超越了所有参与比较的模型其中英文得分误差率0.109几乎是Gemini 2.5 Flash0.214的一半。在多图像理解和抗幻觉能力测试上它也取得了领先成绩。视频理解方面在MLVU多任务长视频理解榜单上得分76.5处于前列。语音能力方面在中文和英文语音合成质量评测SeedTTS测试集上MiniCPM-o 4.5的字符/词错误率衡量语音清晰度和准确度的指标分别为0.86%和2.38%优于CosyVoice2和Qwen3-Omni的成绩。在长文本语音合成稳定性测试LongTTS上英文词错误率仅3.37%远低于CosyVoice2的14.80%和Qwen3-Omni的17.33%——这意味着它在生成长段英文语音时不会出现明显的错误累积。在情绪和风格控制评测上它也显著优于对比模型表明其语音生成不只是读字而是能根据内容语境调整语调和情感。语音理解方面在CoVoST 2英译中测试上得分49.9在VoiceBench指令跟随评测上得分4.81满分5分在语音问答能力上也有亮眼表现。文字能力方面MiniCPM-o 4.5在绝大多数纯文字评测任务上不仅没有退步反而略微超过了它的底座语言模型Qwen3-8B-Instruct综合平均分从81.6提升到82.1。这表明多模态联合训练不但没有损害语言能力反而通过更丰富的数据带来了微弱的语言能力增益。全双工流式交互方面在LiveSports-3K-CC这个持续视觉流理解基准上MiniCPM-o 4.5取得了54.4的胜率比LiveCC41.5高出近13个百分点比StreamingVLM45.6高出约9个百分点。在需要同时理解音频和视频的全模态理解测试上在Daily-Omni、WorldSense、Video-Holmes、JointAVBench和AVUT-Human五项测试中都取得了最佳成绩超越了包括Gemini 2.5 Flash和Qwen3-Omni-30B-A3B在内的所有对比模型。**八、跑在手机上的AI边缘设备的实际部署**一个再强大的模型如果只能跑在昂贵的服务器机房里对普通用户来说也只是一个遥远的概念。MiniCPM-o 4.5的一个重要目标就是实现在消费级设备上的实时部署。研究团队开发了一套基于llama.cpp一个专为边缘设备优化的C推理框架的专用推理框架命名为llama.cpp-omni。测试结果相当惊人。在INT4量化一种大幅减少内存占用的数值压缩技术的条件下该框架在一块消费级NVIDIA RTX 4090显卡上的实时因子RTF衡量推理速度与实际时间之比低于1意味着能实时运行仅为0.21——也就是说处理1秒钟的内容只需要约0.21秒轻松实现实时交互且内存占用仅11GB。相比之下直接用PyTorch运行的INT4版本RTF高达1.26根本无法实时BF16精度的PyTorch版本则直接内存溢出跑不起来。与主要竞争对手Qwen3-Omni-30B-A3B相比在使用vLLM这个常见推理框架的条件下MiniCPM-o 4.5在INT4下的吞吐量每秒处理词元数达到212.3而Qwen3-Omni-30B-A3B仅有147.8首个词元延迟从发出请求到收到第一个回复词元的时间为0.58秒优于Qwen3-Omni-30B-A3B的0.98秒内存占用仅11GB几乎是Qwen3-Omni-30B-A3B的一半。研究团队还特别指出llama.cpp-omni支持macOS、Windows和Linux三个主流操作系统意味着它有潜力在个人电脑、高性能平板甚至智能手机上运行。按照论文的描述运行整个系统含实时视觉、语音和文字处理需要的内存少于12GB这已经是许多现代笔记本电脑的常见内存配置范围。**九、研究的局限与未来方向**研究团队对MiniCPM-o 4.5的不足相当坦诚。全双工流式模式下模型在长时间动态真实场景中的基础能力和鲁棒性仍需进一步验证——毕竟实验室里的测试场景和真实世界里嘈杂、多变、充满意外的交互环境还有相当的距离。语音生成偶尔会出现发音错误或中英文混杂的问题这在需要严格区分两种语言的场景下可能造成困扰。网络不稳定时在线演示可能出现延迟或片段缺失的情况本地部署体验会更流畅。此外目前模型的主动行为能力仍然较为基础复杂的、需要长期上下文规划的主动助理行为还留待未来的研究去攻克。---说到底MiniCPM-o 4.5代表了一种对AI交互范式的根本性重新设计。过去我们习惯了和AI的对话是你一句我一句的轮流制这不是因为这种方式最好而是因为技术上最容易实现。Omni-Flow框架的出现给出了一种在工程上可行、在效果上可验证的替代路径让AI真正进入持续感知、随时响应的工作状态而不是在固定的感知窗口和输出窗口之间来回切换。当然从研究论文到真实世界的普遍应用中间还有很多工程化和可靠性的挑战需要解决。但仅就这项研究本身而言它在9B参数规模内同时实现了有竞争力的视觉语言理解、领先的语音生成质量和全球首个开源全双工全模态交互能力并且能在消费级硬件上实时运行——这是多个维度的同时突破而非单一指标的孤立优化。对于普通用户来说这项研究最值得期待的也许是它暗示的未来一个AI助手能在你工作、做饭、锻炼的过程中始终在场——不是等你开口才反应而是真正像一个同在现场的伙伴一样既听你说话又观察你所处的环境随时准备在恰当的时机说出恰当的话。有兴趣深入了解技术细节的读者可以通过arXiv编号2604.27393检索完整论文。---**QA**Q1MiniCPM-o 4.5的全双工和普通AI语音助手有什么区别A普通AI语音助手必须等你说完话才开始回答回答期间无法接收新的输入就像对讲机一样。MiniCPM-o 4.5的全双工能力则允许它在说话的同时持续接收新的视频和音频输入并根据最新情况调整输出内容更接近人类的真实对话方式。Q2Omni-Flow框架是怎么实现同时感知和说话的AOmni-Flow把连续交互切成每1秒一个的时间块在每个时间块内模型同时接收新输入信息并生成输出内容。通过足够小的时间间隔感知和输出在外部看起来就像同时进行。它还用一个专门的控制信号来决定当前时刻是否应该开口说话再单独决定说什么两个决策分开处理大幅提升了稳定性。Q3MiniCPM-o 4.5能在普通电脑上运行吗A研究团队开发了专用的llama.cpp-omni推理框架在INT4量化下运行MiniCPM-o 4.5的内存需求低于12GB且可以在消费级GPU如RTX 4090上实时运行实时因子仅0.21。系统支持Windows、macOS和Linux三个主流操作系统具备在个人电脑上部署的实际可行性。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2607814.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！