【论文阅读】通过homeostasis RL学习合成综合机器人行为

news2026/4/29 7:49:08

快速了解部分基础信息英文1.题目: Synthesising integrated robot behaviour through reinforcement learning for homeostasis2.时间: 2024.063.机构: Kyoto University, The University of Tokyo4.3个英文关键词: Homeostasis, Deep Reinforcement Learning, Embodied Neural Homeostat1句话通俗总结本文干了什么事情本文证明了仅通过让机器人维持内部状态温度和电量的稳定就能让其自发学会走路、觅食和调节体温等复杂生存行为而无需专门设计奖励函数。研究痛点现有研究不足 / 要解决的具体问题传统的强化学习通常依赖外部环境提供的复杂奖励信号如得分、通关来训练机器人这忽略了生物体依靠内部生理状态如饥饿、冷热来驱动行为的本质。现有方法难以在真实的机器人系统中仅通过内部状态的稳定来生成复杂的集成行为。核心方法关键技术、模型或研究设计简要提出了Embodied Neural Homeostat (ENH)框架利用深度强化学习PPO算法将机器人的内部物理状态电池电量、电机温度作为唯一的奖励信号通过Sim2Real仿真到现实技术训练机器人。深入了解部分作者想要表达什么作者想要表达的核心观点是内稳态Homeostasis可以作为机器人行为生成的根本驱动力。就像生物为了生存必须维持体温和能量一样机器人也可以仅仅为了“保持不关机”和“保持不烧坏”自发地演化出复杂的、类似生命的集成行为如觅食和温度调节而不需要人类工程师去手把手地设计每一个动作的奖励。相比前人创新在哪里世界首个真实机器人验证这是世界上第一个在真实物理机器人上仅基于内稳态原则成功演化出集成行为的系统。内部状态即奖励完全摒弃了传统的外部任务导向奖励如走多远、拿到多少分仅使用机器人内部的物理状态电量、温度变化作为唯一的优化目标。电机热力学建模在仿真中引入了电机温度变化的物理模型这是以前的简化模拟器中没有的使得仿真到现实的迁移成为可能。解决方法/算法的通俗解释想象一个机器人是个“怕热又怕没电”的生物。奖励机制它的“快乐值”Reward只取决于两件事电量是不是满的温度是不是舒服的。只要离这两个目标越远它就越“痛苦”。学习过程算法让机器人在仿真中瞎折腾如果它瞎动的过程中偶然发现“走到红球旁边电量就回升了”或者“停下来不动温度就降了”它就会记住这些动作因为这些动作让它从“痛苦”变“不痛苦”。最终结果经过大量训练它自己悟出了“走路”、“找红球”和“休息”这三个招数只是为了让自己“舒服”。解决方法的具体做法定义内部状态Interoception将机器人的剩余电量和电机平均温度作为唯一的观察输入。设计奖励函数奖励值仅与内部状态到目标值如电量0.8温度40度的距离变化成正比。距离越小奖励越高。构建仿真环境使用MuJoCo物理引擎并加入了电池消耗模型和电机热力学模型模拟电机发热和散热。Sim2Real训练在仿真中使用PPO算法训练神经网络控制器通过域随机化Domain Randomization让策略适应真实世界的物理差异。真实测试将训练好的策略直接部署到真实的四足机器人RealAnt上。基于前人的哪些方法Homeostatic RL 理论基于Keramati和Gutkin提出的内稳态强化学习理论框架。Deep RL (PPO)使用了Schulman等人提出的Proximal Policy OptimizationPPO算法进行优化。Sim2Real Domain Randomization借鉴了Tobin等人提出的域随机化方法用于解决仿真与现实的差距。实验设置、数据、评估方式、结论设置四足机器人RealAnt在一个有墙的场地内场地上有一个“食物”红球。机器人有温度传感器和电池监控。数据使用了9000个时间步的真实数据来拟合电机的热力学模型参数。评估长期运行观察机器人能否长时间维持电量和温度在目标范围内。行为观察观察是否出现了导航找食物、休息降温、颤抖升温等行为。消融实验对比没有温度控制目标的机器人会过热烧坏和没有电池替换的软重置实验。结论ENH成功在真实机器人上实现了集成行为。机器人学会了在电量低时寻找红球充电在温度过高时停下来休息散热甚至在过冷时通过抖动来发热。提到的同类工作AlphaGo / Dota 2 / Gran Turismo这些是Deep RL在游戏领域的里程碑但它们依赖外部奖励与本文的内部生理驱动不同。传统机器人控制通常需要人工设计复杂的状态机或奖励函数来分别处理走路、避障、充电等任务缺乏生物般的灵活性。和本文相关性最高的3个文献Keramati Gutkin (2011/2014)本文的理论基石提出了将内稳态作为强化学习目标的数学框架。Schulman et al. (2017)本文使用的具体深度强化学习算法用于优化机器人的行为策略。Tobin et al. (2017)本文实现仿真到现实Sim2Real迁移的关键技术支撑解决了仿真模型不准确的问题。我的数学理论上没创新主要是讲故事。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2564960.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！