X-WAM《Unified 4D World Action Modeling from Video Priors with Asynchronous Denoising》

news2026/5/3 5:31:33

X-WAM【机器人世界模型新突破X-WAM到底强在哪】最近一篇超值得关注的论文《Unified 4D World Action Modeling from Video Priors with Asynchronous Denoising》提出了一个非常“狠”的统一框架——X-WAM一句话核心用一个模型同时搞定“视频生成 3D重建动作决策实时执行”真正迈向“可执行世界模型”。【它解决了什么痛点】⚠️ 过去的方法有明显割裂VLA模型会做动作但不懂物理世界World Model 会“幻想未来”但不能控制机器人 X-WAM把这两条路线彻底统一直接建一个“能想象能行动”的4D世界模型。【核心方法1轻量Depth Adaptation】关键创新来了不再把depth当输入拼进去会炸算力而是复制Diffusion Transformer最后几层单独做一个“depth分支”只读RGB特征不影响主干✨结果✔ 获得3D空间感知✔ 不破坏预训练视频模型✔ 不增加序列长度本质从视频latent里“读出3D几何”⚡【核心方法2异步去噪 ANS】一个非常聪明的设计视频生成需要很多步慢动作预测其实几步就够快于是他们做了前几步 → 快速解码动作立即执行后续步骤 → 慢慢生成高清未来视频效果✔ 动作实时执行✔ 视频质量不下降✔ 推理速度提升4.5× 同时训练时还做了“联合噪声分布”保证训练和推理一致【效果有多强】 RoboCasa 79.2% 成功率SOTA RoboTwin 90.7%超过Motus等 4D重建深度误差点云质量全面领先证明一点显式3D建模真的能提升机器人策略【为什么这篇论文重要】它不是简单“多模态融合”而是第一次做到✔ 视频生成✔ 3D重建✔ 动作控制✔ 实时执行全部统一在一个Diffusion框架里

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2577296.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！