2025_NIPS_Scaffolding Dexterous Manipulation with Vision-Language Models
文章主要内容总结该研究提出一种结合视觉语言模型(VLMs)与强化学习(RL)的灵巧机器人操作框架,核心是用VLM生成粗粒度运动轨迹(“支架”),指导低层级残差RL策略完成复杂操作任务。框架无需人工演示或手工设计奖励函数,通过自然语言指令和场景图像,让VLM识别任务相关关键点并生成3D轨迹,再由RL策略精准跟踪轨迹完成操作。在8个模拟任务(如移动苹果、开门、锤击等)中表现接近最优脚本方案,且成功实现从仿真到真实机器人的零样本迁移,3个真实场景任务成功率达65%-90%。核心创新点用VLM替代人工生成轨迹支架:借助VLM的空间语义推理能力,自动识别关键点并生成运动轨迹,解决传统方法依赖大量人工演示或复杂奖励函数的问题。残差RL与轨迹跟踪结合:低层级RL策略学习轨迹偏移量而非绝对动作,既保证轨迹遵循性,又能微调优化,提升操作精度。强泛化与零样本迁移:通过随机化初始条件和少样本提示优化,框架能适应新场景,且无需额外调优即可迁移到真实机器人。模块化设计:高层级VLM规划与低层级RL控制分离,兼顾语义理解与精细操作,可通过替换VLM或优化RL模块灵活扩展。翻译部分(Markdown格式)Abstract灵巧机器人手是执行复杂操作任务的关键,但由于演示数据收集困难和高维
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2443016.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!