深度解构 BeyondMimic 引导扩散控制策略

news2026/3/17 13:32:01

深度解构 BeyondMimic 引导扩散控制策略引导扩散就是先利用 Tracking 的方式训练出多个可以实现各种动作的小模型随后利用这些小模型在仿真中生成大量的数据用来训练出一个大模型也就是蒸馏。但这里用的不是传统的蒸馏手段我们在训练的每一步都会故意搞破坏这被称为前向加噪过程 Forward Process1. 抽取数据从数据集里拿出一对完美的(S,A0)(S, A_0)(S,A0)。2. 生成纯噪音计算机随机生成一团毫无意义的高斯白噪音ϵ\epsilonϵ形状和动作A0A_0A0一模一样。3. 混合搅拌随机选择一个时间步ttt比如t50t50t50$按照预设的比例把完美动作A0A_0A0和纯噪音ϵ\epsilonϵ强行揉在一起得到一个被污染的动作AtA_tAt$也就是我们前面说的潜动作变量xtx_txt。在这个阶段原本干净的电机位置轨迹已经被厚厚的“电子泥巴”盖住了。现在大模型要登场做题了。它的输入和输出发生了根本性的反转喂给大模型的输入1. 机器人的当前状态SSS。2. 那个被泥巴污染的动作AtA_tAt。3. 当前的时间步ttt告诉模型泥巴有多厚。要求大模型的输出考题 “看着这个状态SSS再看看这团乱七八糟的AtA_tAt你能猜出我刚才往里面加的纯噪音ϵ\epsilonϵ是什么形状吗”大模型吐出一个预测噪音ϵpred\epsilon_{\text{pred}}ϵpred。接着系统用真实加进去的噪音ϵ\epsilonϵ$ 和它猜的噪音ϵpred\epsilon_{\text{pred}}ϵpred计算均方误差MSE Loss以此来更新大模型的权重。接下来将机器人当前状态和一团白噪音输入到大模型中大模型会开始一步步跟你你定义的 cost 代价函数来修改大模型降噪的方向来从而预测噪音挂掉噪音最后生成一个没有多余噪音的专家级动作。这种控制策略具备以下两个特点高鲁棒性的可扩展动作追踪Motion Tracking管道此前的强化学习或动作模仿方法通常很难在真实的物理硬件上稳定实现高难度动作或者需要针对特定动作进行大量参数微调。BeyondMimic 提出了一个极具扩展性的动作追踪框架使用统一的设定和共享的超参数就能够让机器人在仿真中掌握极具挑战性的敏捷行为例如冲刺、侧手翻、旋风踢、跳跃旋转等并且具备极高的 Sim-to-Real仿真到现实迁移成功率在真实硬件如 Unitree G1上表现出了最先进的运动质量和自然度。基于引导扩散Guided Diffusion的通用控制策略该框架超越了简单的“模仿Mimic”它引入了扩散模型Diffusion Model来实现动作的泛化与组合。离线蒸馏研究团队将第一步训练出的多种动作追踪策略通过离线蒸馏Offline Distillation整合到一个统一的“状态-动作State-Action”潜扩散模型中。零样本Zero-Shot任务执行在测试阶段模型利用**分类器引导Classifier Guidance**技术只需要赋予极其简单的成本函数Cost Functions扩散模型就能在不需要重新训练的情况下实时生成动作并完成复杂的下游任务。论文在真机上展示了诸如目标点导航Waypoint navigation、动态避障Obstacle avoidance以及摇杆遥控Joystick teleoperation等能力。BeyondMimic: From Motion Tracking to Versatile Humanoid Control via Guided Diffusion

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2419558.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！