[具身智能-60]:具身智能的核心是让大模型替代传统的预设的规则和固化的算法,从传感器检测到的信号中提取有意义的信息、让大模型进行规划和决策,让大模型进行路径的规划,并指挥执行机构完成相应的动作控制。
用大模型替代传统规则和固化算法”是这一轮技术革命的核心分水岭。我们可以将你描述的这个过程拆解为三个维度的范式转移Paradigm Shift来深入理解为什么大模型能带来这种颠覆1. 感知维度从“特征工程”到“语义理解”传统模式规则/固化算法做法工程师手动设计算法如边缘检测、颜色阈值、模板匹配。局限只能识别“训练过”或“写死”的物体。如果光线变了、物体换个角度、或者出现了一个没见过的杯子算法就失效了鲁棒性差。它提取的是几何特征不懂语义。例子代码写死if color red and shape circle then apple。遇到青苹果或咬了一口的苹果就识别失败。大模型模式端到端学习做法利用预训练的视觉 - 语言大模型VLM直接从传感器信号像素映射到高维语义空间。优势具备零样本Zero-shot泛化能力。它没见过这个特定的杯子但它知道“杯子”的概念有把手、能盛水、易碎。它能理解场景的上下文“杯子在桌子边缘可能会掉”。核心变化不再需要人工定义“什么是杯子”的标准和规则大模型从海量数据中自己学会了世界的常识。2. 决策与规划维度从“状态机”到“推理引擎”传统模式规则/固化算法做法使用有限状态机FSM或行为树Behavior Tree。工程师必须穷举所有可能的情况if 障碍物在左 - 右转if 电量20% - 回充。局限无法处理长序列任务和未知突发状况。一旦遇到预设逻辑之外的情况比如路被堵死了需要搬开椅子机器人就会“死机”或报错。它没有因果推理能力。例子指令“去厨房拿水”。如果厨房门开着它能去如果门关着传统程序可能直接报错“路径不可达”因为它不知道“开门”这个前置动作。大模型模式推理引擎做法大模型作为大脑利用其内嵌的世界知识进行思维链Chain of Thought推理。优势具备任务分解和异常处理能力。面对“门关了”它能自动推理出“要拿水 - 需进厨房 - 门关了 - 需要先执行‘开门’动作 - 找到门把手 - 抓取 - 旋转”。核心变化从“执行预设脚本”变成了“现场解题”。大模型能处理开放世界中的无限可能性。3. 控制维度从“精确计算”到“策略模仿”传统模式规则/固化算法做法基于数学模型的控制器如PID、MPC。需要精确的机器人动力学模型和环境模型。局限对模型误差极其敏感Sim-to-Real Gap。如果地面摩擦力变了、负载重量变了原本调好的参数可能让机器人摔倒。且难以处理复杂的非结构化操作如叠衣服、插电线。例子机械臂抓取位置必须精确到毫米否则就抓空。大模型模式策略学习/VLA做法视觉 - 语言 - 动作模型VLA, Vision-Language-Action。大模型直接输出动作令牌Action Tokens或关节扭矩基于海量机器人操作数据的模仿学习。优势具备柔顺性和适应性。它不依赖完美的物理公式而是依赖“经验”数据。它像人一样凭感觉调整力度和角度。核心变化从“计算最优解”变成了“直觉反应”。大模型学会了手眼协调的通用策略能迁移到未见过的物体上。总结这场变革的本质本质上是将机器人的智能来源从“工程师写代码”转移到了“现实数据的训练”。表格维度传统机器人 (规则驱动)具身智能机器人 (大模型驱动)智能来源工程师的硬编码 (Hard-coded)大数据的预训练 (Pre-trained)环境假设结构化、已知、静态非结构化、开放、动态处理能力擅长重复、高精度任务擅长泛化、推理、复杂交互任务扩展性加一个新功能需重写代码加一个新概念只需微调或提示 (Prompt)核心瓶颈算法规则的覆盖率数据的质量与规模、算力成本需要注意的“混合架构”现实虽然大模型是核心但在目前的实际落地中如特斯拉Optimus、Figure 01通常采用“大小脑协同”的混合架构而不是完全抛弃传统算法大模型大脑负责你提到的感知理解、任务规划、宏观决策。它慢几百毫秒延迟但聪明懂常识。传统算法/小模型小脑/脊髓负责底层的平衡控制、高频伺服响应、安全保护。它快微秒级延迟虽不懂语义但能保证机器人不摔倒、不撞坏。结论具身智能的终极目标就是让具有极强泛化能力的大模型成为机器人的通用操作系统让它像人类一样通过看感知、想规划、做控制来适应这个复杂多变的世界而不再是一个只能执行固定程序的自动化机器。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2430659.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!