2025_NIPS_Scaffolding Dexterous Manipulation with Vision-Language Models

news2026/3/24 6:32:49

文章主要内容总结该研究提出一种结合视觉语言模型（VLMs）与强化学习（RL）的灵巧机器人操作框架，核心是用VLM生成粗粒度运动轨迹（“支架”），指导低层级残差RL策略完成复杂操作任务。框架无需人工演示或手工设计奖励函数，通过自然语言指令和场景图像，让VLM识别任务相关关键点并生成3D轨迹，再由RL策略精准跟踪轨迹完成操作。在8个模拟任务（如移动苹果、开门、锤击等）中表现接近最优脚本方案，且成功实现从仿真到真实机器人的零样本迁移，3个真实场景任务成功率达65%-90%。核心创新点用VLM替代人工生成轨迹支架：借助VLM的空间语义推理能力，自动识别关键点并生成运动轨迹，解决传统方法依赖大量人工演示或复杂奖励函数的问题。残差RL与轨迹跟踪结合：低层级RL策略学习轨迹偏移量而非绝对动作，既保证轨迹遵循性，又能微调优化，提升操作精度。强泛化与零样本迁移：通过随机化初始条件和少样本提示优化，框架能适应新场景，且无需额外调优即可迁移到真实机器人。模块化设计：高层级VLM规划与低层级RL控制分离，兼顾语义理解与精细操作，可通过替换VLM或优化RL模块灵活扩展。翻译部分（Markdown格式）Abstract灵巧机器人手是执行复杂操作任务的关键，但由于演示数据收集困难和高维

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2443016.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！