南洋理工大学MonoArt:单图生成可动3D模型,推理效率远超同行!
南洋理工大学提出MonoArt单图生成可动3D模型南洋理工大学团队提出MonoArt通过逐步推理实现从单图生成可动3D模型。该方法先恢复几何结构再识别部件最后推断运动方式与参数无需外部数据或先验就能构建出具备运动能力的3D表示有效提升重建稳定性与实用性。3D生成领域现状与MonoArt核心思路在3D生成领域从单张图片中生成3D物体模型已较为常见。然而随着具身智能的爆发多数模型是难以交互的静态资产。比如想打开生成的冰箱门它是焊死的想让机器人搬动生成的椅子却不知哪里可以折叠。近日南洋理工大学S - Lab研究团队提出MonoArt试图高效解决这一问题。其核心思路是把单目可动物体重建建模为一个渐进式结构推理过程。在这个框架里模型依次完成几何恢复、部件感知、运动推理和运动学参数估计最终得到既有形状、又有部件层级和关节信息的3D表示。articulated 3D reconstruction任务难点与现有方法问题与静态3D重建不同articulated 3D reconstruction不仅要恢复物体形状还要进一步建模部件划分、关节类型、运动轴、旋转中心和运动范围。此任务难点在于结构与运动是耦合的直接从图像特征回归articulation往往不稳定泛化也有限。现有方法大致分为三类基于多视角或视频的方法依赖同一物体在不同开合状态下的观测对数据条件要求高基于检索与拼装的方法通过已有资产库组装可动物体易受库内形状覆盖限制基于额外先验的方法借助视觉语言模型等推断articulation系统复杂且依赖外部先验推理时间长。这些方法都未把结构理解作为articulation inference的起点。MonoArt的方法设计MonoArt将单目可动物体重建建模为渐进式结构推理过程把geometry、part structure和motion放进同一条连续的推理链里让运动成为结构理解的自然结果。具体来看MonoArt由四个关键模块组成实现逐步推理第一步从单张图像恢复物体的三维几何。MonoArt使用TRELLIS作为冻结的3D生成骨干输出canonical mesh以及与之对齐的latent features后续推理都建立在三维空间上比直接从像素特征回归关节参数更稳定。第二步明确物体的可动部件。Part - Aware Semantic Reasoner让模型“看懂”部件结构将表面点的几何特征投影到三个正交平面上通过Transformer捕捉全局结构关系为每个点生成包含部件归属信息的embedding。训练时通过triplet loss拉开不同部件特征之间的距离。第三步推断每个部件的运动。MonoArt的Dual - Query Motion Decoder采用解耦设计用content query编码部件语义用position query编码空间运动锚点通过6层迭代refinement逐步对齐让运动推理更稳定。第四步输出物理上可用的运动学参数。Kinematic Estimator把推理结果转化为明确的、物理可解释的输出还预测部件之间的父子关系构建完整的kinematic tree。关节位置的预测采用残差形式比直接回归绝对坐标更准确。MonoArt的实验效果与应用这四步递进的设计使articulation推理无需任何外部先验。在PartNet - Mobility基准测试中MonoArt在7类和46类两种设置下均展现领先性能在多个核心指标上取得最优表现兼顾更高的推理效率。相比Articulate - Anything的229.9s和PhysXAnything的256.8sMonoArt只需要20.5s。同时MonoArt生成的3D物体可用于机械臂的仿真训练重建的物体可直接导入IsaacSim让Franka机械臂抓取和开门无需额外关节标注还可扩展到具有可动部件的场景生成上。MonoArt的局限性与思考不过MonoArt也存在局限性。对于尺度极不均衡的小部件均匀采样可能导致特征不明显对于非常新的拓扑结构或罕见模式模型的运动参数预测可能下降这也为后续工作留下了空间。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2546216.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!