X-WAM《Unified 4D World Action Modeling from Video Priors with Asynchronous Denoising》
X-WAM【机器人世界模型新突破X-WAM到底强在哪】最近一篇超值得关注的论文《Unified 4D World Action Modeling from Video Priors with Asynchronous Denoising》提出了一个非常“狠”的统一框架——X-WAM一句话核心 用一个模型同时搞定“视频生成 3D重建 动作决策 实时执行”真正迈向“可执行世界模型”。【它解决了什么痛点】⚠️ 过去的方法有明显割裂VLA模型 会做动作但不懂物理世界World Model 会“幻想未来”但不能控制机器人 X-WAM把这两条路线彻底统一直接建一个“能想象 能行动”的4D世界模型。【核心方法1轻量Depth Adaptation】 关键创新来了 不再把depth当输入拼进去会炸算力 而是复制Diffusion Transformer最后几层单独做一个“depth分支”只读RGB特征不影响主干✨结果✔ 获得3D空间感知✔ 不破坏预训练视频模型✔ 不增加序列长度 本质从视频latent里“读出3D几何”⚡【核心方法2异步去噪 ANS】 一个非常聪明的设计 视频生成需要很多步慢 动作预测其实几步就够快于是他们做了前几步 → 快速解码动作立即执行后续步骤 → 慢慢生成高清未来视频效果✔ 动作实时执行✔ 视频质量不下降✔ 推理速度提升4.5× 同时训练时还做了“联合噪声分布”保证训练和推理一致【效果有多强】 RoboCasa 79.2% 成功率SOTA RoboTwin 90.7%超过Motus等 4D重建 深度误差 点云质量全面领先 证明一点显式3D建模真的能提升机器人策略【为什么这篇论文重要】 它不是简单“多模态融合”而是 第一次做到✔ 视频生成✔ 3D重建✔ 动作控制✔ 实时执行全部统一在一个Diffusion框架里
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2577296.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!