告别穿模与漂移！南洋理工团队提出HMR新框架：用视觉大模型对齐人体姿态

news2026/4/4 7:20:46

点击下方卡片关注「3D视觉工坊」公众号选择星标干货第一时间送达本文一作投稿发布 | 来源3D视觉工坊「3D视觉从入门到精通」知识星球(点开有惊喜) 星球内有20多门3D视觉系统课程、300场顶会讲解、顶会论文最新解读、海量3D视觉行业源码、项目承接、求职招聘等。想要入门3D视觉、做项目、搞科研欢迎加入单靠一张RGB照片还原精准的3D人体模型究竟有多难虽然基于扩散模型Diffusion Models的人体姿态估计方法让生成结果变得多样化但“幻觉”也随之而来人体四肢莫名穿透身体、脚底悬空、或者在复杂遮挡下姿态完全走样。针对这些顽疾来自南洋理工大学(NTU)、香港科技大学(广州)、商汤科技以及A * STAR的研究团队提出了一种全新方案VLM-Guided Group Preference Alignment。他们开发了一个具备“双重记忆”和“自我反思”能力的VLM裁判代理并提出了一套全新的群体偏好对齐Group Preference Alignment框架。该框架灵感源自大语言模型中爆火的 GRPO 技术并将其首次成功适配到 3D 人体网格恢复HMR领域显著提升了模型在野外复杂场景下的表现。目前该论文已被 CVPR 2026 接收。01 痛点为什么扩散模型也会“飘”在单目HMR任务中由于深度信息的缺失同一个2D观察在数学上可能对应无数种3D姿态。现有的扩散模型虽然能生成多个候选结果来覆盖这种不确定性但由于缺乏显式的3D几何约束生成的模型往往“中看不中用”物理不可行四肢比例失调或者手脚穿过身体穿模。深度歧义在侧面视角下人体与背景或自身的深度关系完全错乱。图像漂移虽然3D姿态看上去还行但投影回2D画面时与原图人像无法重合。传统的优化方法或判别网络Scorer往往只看2D特征容易被遮挡和杂乱背景误导。那么能不能请一位懂几何、懂语义、还懂物理常识的“老师”来指点模型呢02 创新一给VLM裁判装上“双重记忆”与“反思脑”研究团队发现多模态大模型VLM本身就蕴含了丰富的人体语义和空间逻辑。但直接让它打分往往会遇到“标准不统一”、“打分随性”的问题。为了让裁判更专业、更稳定研究人员为VLM裁判构建了双重记忆机制规则记忆Rule Memory这相当于一本“避坑指南”存储了如“肢体长度比例一致性”、“关节极限角度”、“深度一致性”等硬性物理准则。原型记忆Prototype Memory这相当于一套“错题本”和“范文集”存储了过去判断过的典型成功案例和失败反面教材。更核心的设计在于自我反思Self-reflection能力。在探索阶段裁判会自动对比预测结果与真实值GT的差异如果发现自己判断失误它会通过反思自主总结并提炼出新的判断规则。有了这套机制裁判在评价野外复杂场景时能表现出更好的逻辑一致性。03 创新二HMR领域的“GRPO”实验受 DeepSeek 等模型中 GRPO 算法的启发团队提出了专为人体重建设计的群体偏好对齐框架。这种方法不再局限于“两两比较DPO”因为在HMR这种多假设生成任务中 pairwise 比较难以捕捉全方位的最优方向。该框架针对同一张图生成的一组Group候选预测进行整体评估群体“内卷”通过 VLM 裁判打分并转化为相对优势Advantages精准识别最自然的姿态。无标签训练该过程完全不需要 3D 真值标签模型可以直接利用海量无标注的野外照片进行微调打破了实验室数据集的局限。04 效果实测遮挡再重逻辑不乱实验结果显示该方法在 3DPW 和 Human3.6M 等权威数据集上均刷新了记录。特别是在野外场景的 3DPW 测试集上其 MPJPE 误差相比之前的生成式 SOTA 模型降低了 8.2%。看这几个细节在极端遮挡下如冲浪、打电话即便手臂被挡住大半新模型依然能推导出符合生理逻辑的3D姿态。在复杂交互中有效消除了人体自有的“穿模”现象让模型在侧面观察下也显自然。05 总结与展望从人体到万物一种通用的空间逻辑对齐范式这项研究证明了大模型裁判群体偏好对齐在极度依赖空间逻辑的 3D 感知领域潜力巨大。这种架构更展示了一种通用的视觉对齐范式其应用场景远不止于HMR3D 场景重建纠正家具重建中的畸变或悬空。机器人交互引导机器人学习更符合生物力学的交互动作。AIGC 物理对齐解决视频生成中的形体崩溃和物理违和感。将视觉常识与生成模型的灵活性通过偏好学习相结合是通往物理真实感 AI 的关键一步。当然这一方法仍有其局限性由于提出的群体偏好对齐框架在偏好数据集构造阶段涉及多样本生成与频繁的 VLM 调用其计算成本相对较高且对齐效果上限仍受限于底层 VLM 对 3D 几何的理解深度。未来随着多模态大模型能力的进一步增强这种“以智治智”的范式进化或许将彻底改变 AI 生成与理解 3D 物理世界的方式。团队介绍该论文的作者来自南洋理工大学S-Lab、香港科技大学广州、商汤科技及 A* STAR 研究所。发表CVPR 2026论文链接https://arxiv.org/abs/2602.19180.本文仅做学术分享如有侵权请联系删文。3D视觉方向论文辅导来啦可辅导SCI期刊、CCF会议、本硕博毕设、核心期刊等。添加微信cv3d001备注姓名方向单位邀请入群。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2477452.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！