从大模型到自主决策:AI Agent的核心进化路径
从大模型到自主决策AI Agent的核心进化路径1. 引入与连接从提问-回答工具到能干活的伙伴的认知跃迁核心概念本节的核心概念包括通用人工智能(GAI)认知误区、工具AI(TAI)与自主AI(AAI)的本质分野、AI Agent的直观锚点以及读者已有认知桥梁ChatGPT/Claude/GitHub Copilot与Agent的区别。我们将从「认知锚点缺失」「能力边界模糊」「价值预期混乱」三个读者在接触大模型与Agent时常遇到的问题切入搭建由「日常经验」到「前沿技术」的阶梯。问题背景2022年11月30日OpenAI发布ChatGPT-3.5是人工智能从「实验室玩具/垂直工具」走向「大众级通用工具」的历史性节点。截至2024年6月全球大语言模型(LLM)用户规模突破15亿月均对话请求量超过万亿次——但随之而来的是大规模的「大模型幻灭期碎片」程序员抱怨GitHub Copilot写的代码「90%能用10%藏着致命漏洞还要逐行调试效率没提多少还得多长个心眼」创业者试图用Claude Opus写商业计划书结果内容逻辑通顺但「完全脱离市场实际产品定位飘在云端财务预测瞎编胡凑」学生用ChatGPT写论文要么查重率100%要么观点平庸要么直接编造不存在的参考文献就连最擅长的「翻译/写文案/整理会议纪要」这类重复性工作大模型也经常「翻译错专业术语」「文案风格不符合甲方爸爸要求」「整理会议纪要漏掉关键决策节点」。为什么会出现这种情况因为大众和大多数初级从业者对大模型的本质认知存在根本性偏差——大模型不是「无所不能的超级大脑」也不是「能替代人类的自主决策者」它只是一个**「能力超强但记忆短暂、逻辑连续但缺乏常识、只会提问回答但不会主动规划/执行/反思/迭代的工具」**。要让AI真正「能干活」「会协作」「懂变通」「敢负责」当然这里的「负责」还只是技术层面的容错与修正我们需要给大模型装上「眼睛」感知模块、「手脚」行动模块、「记忆库」短期长期记忆模块、「大脑前额叶」规划推理反思模块、「任务管理器」任务拆解优先级排序模块——这就是AI Agent一个由「通用大模型(LLM/LMM)」作为核心大脑的「自主决策与执行系统」。问题描述本节要解决的核心问题可以归纳为「三个认知澄清」认知澄清一工具AI与自主AI到底差在哪里从输入输出、能力边界、触发机制、学习模式四个维度对比认知澄清二大模型为什么不能直接当自主AI用从Transformer架构的局限性、上下文窗口的限制、缺乏外部世界交互能力、缺乏自我意识与动机四个技术层面分析认知澄清三AI Agent到底是什么不是什么给出一个通俗易懂的直观定义排除常见的误解比如「AI Agent就是多模态大模型」「AI Agent就是聊天机器人加了插件」「AI Agent就是强人工智能(AGI)的雏形」等问题解决我们将采用「生活化类比直观示例对比表格概念锚定」的四步方法论来解决这三个认知澄清问题第一步用「人类工作者」的类比建立直观认知假设我们要找一个人帮我们「买一台性价比最高的适合拍短视频的iPhone」我们来对比一下工具AI比如Siri/ChatGPT-4o加了插件我们需要说「你好帮我查一下2024年7月1日到2024年7月31日期间京东、淘宝、拼多多、苹果官网这四个平台上iPhone 15 Pro Max 256GB 原色钛金属版的最低价格、发货时间、是否支持14天无理由退换货、是否有赠品、售后服务政策然后把这些信息整理成一个表格再帮我分析一下哪个平台性价比最高最后写一篇100字的购买建议。」工具AI会怎么做它会按照你的要求一步步调用插件先调用京东查询接口再调用淘宝查询接口再调用拼多多查询接口再调用苹果官网查询接口然后整理数据成表格然后分析性价比然后写购买建议——但如果中间出现了问题比如「京东查询接口返回的是iPhone 15 Pro的价格而不是iPhone 15 Pro Max的」「拼多多查询接口提示网络超时」「苹果官网查询接口显示原色钛金属版256GB暂时缺货」工具AI会怎么做它会停下来然后问你「对不起我刚才调用京东查询接口的时候出现了错误返回的是iPhone 15 Pro的价格而不是iPhone 15 Pro Max的请你确认一下你的需求另外拼多多查询接口提示网络超时你要不要换个时间再试还有苹果官网查询接口显示原色钛金属版256GB暂时缺货你要不要换个颜色或者容量」自主AI也就是我们说的AI Agent我们只需要说「你好帮我买一台性价比最高的适合拍短视频的iPhone。」AI Agent会怎么做它会主动启动一个完整的任务闭环需求理解与澄清主动提问缩小模糊范围「好的请问你对这台iPhone有什么具体要求吗比如预算大概是多少有没有指定的颜色、容量、型号主要拍什么类型的短视频是日常vlog、美妆、美食还是数码评测对视频分辨率、帧率、防抖功能有没有特别要求有没有指定的购买平台对发货时间、退换货政策、售后服务有没有要求」假设你回答「预算大概是10000-12000元主要拍日常vlog和美食对4K 60fps的视频录制、超广角镜头、微距镜头、光学防抖功能有要求原色钛金属版最好容量至少256GB预算够的话可以上512GB优先在京东、淘宝、拼多多、苹果官网这四个平台买最好能在3天内发货支持14天无理由退换货售后服务最好是全国联保。」目标拆解与优先级排序主动用思维链将大目标拆成小任务用成本-收益分析法排序目标拆解a. 任务1筛选符合「预算10000-12000元、主要拍日常vlog和美食、对4K 60fps视频录制、超广角镜头、微距镜头、光学防抖功能有要求、原色钛金属版最好、容量至少256GB」条件的iPhone型号b. 任务2在京东、淘宝、拼多多、苹果官网这四个平台上查询筛选出来的iPhone型号的符合优先级的信息优先级排序价格→发货时间→是否有原色钛金属版→是否支持14天无理由退换货→是否有赠品→售后服务政策c. 任务3如果某个平台的原色钛金属版暂时缺货主动搜索「该型号的其他颜色是否有优惠容量是否可以在预算范围内升级到512GB其他电商平台比如苏宁易购、国美在线是否有符合条件的现货」d. 任务4如果所有符合核心条件的平台都没有原色钛金属版主动询问用户「是否可以换个颜色」e. 任务5对所有符合条件的选项进行综合性价比分析建立性价比评分模型价格占比60%发货时间占比15%是否有原色钛金属版占比10%是否支持14天无理由退换货占比5%是否有赠品占比5%售后服务政策占比5%f. 任务6将性价比分析结果整理成一个可视化的表格并生成一份详细的购买建议g. 任务7如果用户确认购买主动调用支付接口、填写收货地址、提交订单当然这里的支付接口调用需要用户的二次授权涉及到资金安全的操作必须设置多重验证机制。任务执行与动态调整主动执行小任务遇到问题主动用备选方案解决不需要用户频繁干预执行任务1筛选iPhone型号——符合预算10000-12000元、主要拍日常vlog和美食、对4K 60fps视频录制、超广角镜头、微距镜头、光学防抖功能有要求的iPhone型号有iPhone 15 Pro 256GB官网价9999元、iPhone 15 Pro 512GB官网价12999元超预算一点点、iPhone 15 Pro Max 256GB官网价11999元刚好在预算范围内。执行任务2查询四个平台的信息——假设查询结果如下平台型号容量颜色价格发货时间14天无理由退换货赠品售后服务京东iPhone 15 Pro Max256GB原色钛金属11699元限时优惠300元次日达是Apple Care 8折优惠券、iPhone 15 Pro Max 透明硅胶保护壳全国联保京东上门取件服务淘宝iPhone 15 Pro Max256GB原色钛金属11899元限时优惠100元2天内发货是苹果无线充电器MagSafe全国联保拼多多iPhone 15 Pro Max256GB原色钛金属11499元百亿补贴500元3天内发货是无全国联保需寄回苹果官方维修苹果官网iPhone 15 Pro Max256GB原色钛金属11999元无优惠7-14天发货是无全国联保Apple Store 线下取件/维修服务执行任务3检查备选情况——四个平台都有原色钛金属版256GB的现货不需要换颜色、容量或平台。结果反馈与用户确认主动将执行结果整理成可视化的内容并生成详细的建议等待用户的最终确认AI Agent会生成一份性价比分析报告「根据你的需求我筛选出了三个符合条件的iPhone型号并在京东、淘宝、拼多多、苹果官网这四个平台上查询了相关信息。以下是综合性价比分析结果性价比评分模型价格占比60%发货时间占比15%是否有原色钛金属版占比10%是否支持14天无理由退换货占比5%是否有赠品占比5%售后服务政策占比5%。各平台iPhone 15 Pro Max 256GB 原色钛金属版的性价比评分平台价格得分满分100价格越低得分越高发货时间得分满分100发货越快得分越高颜色得分满分100有原色钛金属版得100没有得0退换货得分满分100是得100没有得0赠品得分满分100有Apple Care 8折优惠券保护壳得100有MagSafe得70没有得0售后服务得分满分100全国联保上门取件得100全国联保得80全国联保寄回维修得60综合性价比得分加权平均京东94价格11699对应得分(12000-11699)/(12000-10000)*100≈94100次日达100100100100940.6 1000.15 1000.1 1000.05 1000.05 1000.05 96.4拼多多98价格11499对应得分(12000-11499)/(12000-10000)*100≈98603天内发货100100060980.6 600.15 1000.1 1000.05 00.05 600.05 87.8淘宝91价格11899对应得分(12000-11899)/(12000-10000)*100≈91802天内发货1001007080910.6 800.15 1000.1 1000.05 700.05 800.05 90.6苹果官网85价格11999对应得分(12000-11999)/(12000-10000)*100≈85207-14天发货100100090850.6 200.15 1000.1 1000.05 00.05 900.05 75.5购买建议综合来看京东是性价比最高的平台综合得分96.4不仅价格比官网优惠300元而且次日达有Apple Care 8折优惠券和透明硅胶保护壳还支持全国联保京东上门取件服务。如果你更看重价格拼多多的百亿补贴500元确实很诱人综合得分87.8但发货时间是3天内售后服务需要寄回苹果官方维修没有赠品。请问你是否确认在京东购买iPhone 15 Pro Max 256GB 原色钛金属版如果确认我需要你授权我调用支付接口、填写收货地址、提交订单。」迭代优化与知识沉淀主动记录用户的偏好比如「用户优先选择京东」「用户喜欢原色钛金属版」「用户主要拍日常vlog和美食」下次再帮用户买手机的时候就可以直接优先查询京东的信息不用再重复询问这些偏好。通过这个「买手机」的生活化类比我们可以非常直观地感受到工具AI与自主AI的本质区别——工具AI是「被动执行指令的机器」自主AI是「主动理解需求、规划任务、执行任务、解决问题、反馈结果、迭代优化的伙伴」。第二步用「对比表格」和「直观示例」澄清第一个认知问题工具AI与自主AI到底差在哪里我们从输入输出、能力边界、触发机制、学习模式、决策自主性、容错能力、协作能力、价值创造方式八个维度来对比工具AI与自主AI并给出相应的直观示例对比维度工具AI(TAI)自主AI(AAI/AI Agent)直观示例输入输出固定格式的「问题-回答」或「指令-结果」用户必须给出清晰、具体、完整的问题或指令工具AI才能给出准确、单一、无冗余的回答或结果回答或结果一般是文本、图像、音频、视频等单一或组合的静态内容不会涉及外部世界的交互。开放格式的「需求-闭环」用户可以给出模糊、抽象、不完整的需求AI Agent会主动提问澄清需求最终输出是任务完成的状态、结果报告、迭代优化建议、知识沉淀记录等动态的、闭环的内容会涉及外部世界的交互比如调用API、操作软件、控制硬件、与其他AI Agent或人类协作。工具AI示例ChatGPT-4o加了股票查询插件用户输入「你好帮我查一下2024年7月15日阿里巴巴(BABA)在纽交所的开盘价、收盘价、最高价、最低价、成交量。」ChatGPT-4o输出「好的我刚才调用了股票查询插件2024年7月15日阿里巴巴(BABA)在纽交所的开盘价是$92.50收盘价是$93.20最高价是$94.10最低价是$91.80成交量是28,567,890股。」自主AI示例专业的股票投资AI Agent用户输入「你好帮我看看阿里巴巴的股票现在能不能买」AI Agent输出「好的请问你对这次股票投资有什么具体要求吗比如投资期限短期1个月内、中期1-6个月、长期6个月以上、风险承受能力低风险、中风险、高风险、预期收益率年化5%以下、5%-10%、10%-20%、20%以上、投资金额大概是多少另外你有没有投资过阿里巴巴的股票对阿里巴巴的业务有没有了解」假设用户回答了这些问题AI Agent会主动启动任务闭环需求理解与澄清→目标拆解与优先级排序→数据收集调用股票查询插件、新闻资讯插件、财报分析插件、宏观经济分析插件→数据分析建立投资决策模型技术面分析占比30%、基本面分析占比50%、宏观经济分析占比20%→风险评估→结果反馈与投资建议→迭代优化与知识沉淀能力边界明确的、固定的、垂直的工具AI的能力边界完全由其训练数据、预定义的插件列表、预定义的规则决定只能完成特定领域、特定类型、特定流程的任务不会超出能力边界半步——如果用户给出的任务超出了能力边界工具AI会直接拒绝或者给出错误的结果。模糊的、动态的、通用的AI Agent的能力边界由其核心大模型的能力、可扩展的插件/工具库、自我学习能力、协作能力共同决定理论上可以完成所有人类可以用语言或工具完成的任务当然实际能力还受限于技术发展水平——如果某个任务超出了当前的能力边界AI Agent会主动学习新的知识、扩展新的工具、寻求其他AI Agent或人类的帮助而不是直接拒绝。工具AI示例MidjourneyMidjourney的能力边界是「根据用户的文本提示生成图像」——如果用户给出的任务是「帮我把生成的这张图像做成一个15秒的动画然后上传到抖音并且配一段合适的音乐和文案」Midjourney会直接拒绝「对不起我只能根据文本提示生成图像无法制作动画、上传视频、配音乐和文案。」自主AI示例专业的内容创作AI Agent用户输入「帮我把刚才生成的这张猫咪的图像做成一个15秒的可爱动画然后上传到抖音并且配一段合适的音乐和文案记得加上#可爱猫咪 #萌宠日常 这两个话题标签。」AI Agent会怎么做它会主动扩展工具库如果之前没有安装动画制作、视频上传、音乐选择、文案生成的工具会主动搜索并安装然后主动规划任务制作15秒的可爱动画→选择合适的音乐→配一段合适的文案→加上话题标签→上传到抖音→反馈上传结果给用户。触发机制被动的、单一的工具AI只有被用户直接触发比如用户对Siri说「你好Siri」、用户打开ChatGPT的网页版并输入问题、用户在VS Code里输入代码并触发GitHub Copilot的自动补全才会工作不会主动触发任何任务。主动的、多元的AI Agent的触发机制不仅包括用户直接触发还包括时间触发比如每天早上8点帮用户整理当天的日程安排、每天晚上10点帮用户复盘当天的工作、事件触发比如用户的股票账户里某只股票的价格跌破了止损线、用户的邮箱里收到了一封来自老板的重要邮件、用户的家里温度超过了30℃、数据触发比如用户的社交媒体账号里某条帖子的点赞数超过了10000、用户的电商店铺里某件商品的库存低于了100件、协作触发比如其他AI Agent或人类请求帮助。工具AI示例闹钟APP闹钟APP的触发机制只有「时间触发」——只有当用户设置的时间到了闹钟APP才会响铃不会主动做任何其他事情。自主AI示例个人助理AI Agent个人助理AI Agent的触发机制是多元的1.用户直接触发用户说「你好帮我订一张明天下午3点从北京到上海的高铁票」2.时间触发每天早上7点半主动帮用户播报当天的天气、日程安排、重要新闻3.事件触发用户的邮箱里收到了一封来自老板的邮件主题是「明天上午10点紧急会议」主动提醒用户并且帮用户查看明天上午10点的日程安排如果有冲突主动询问用户是否要调整4.数据触发用户的电商店铺里某件热销商品的库存低于了100件主动提醒用户并且帮用户生成一份补货建议5.协作触发用户的朋友发微信说「明天晚上一起吃饭吧」主动查看用户明天晚上的日程安排如果有空主动询问用户是否要答应并且帮用户搜索附近的餐厅、预约座位。学习模式静态的、预训练的、无监督/有监督的工具AI的学习模式是「预训练微调可选 提示工程Prompt Engineering」——预训练阶段是在大规模的公开数据集上进行无监督或有监督的学习微调阶段是在特定领域的小规模数据集上进行有监督的学习提示工程阶段是用户通过调整输入的提示词来引导工具AI输出更好的结果工具AI不会在使用过程中主动学习新的知识所有的知识都来自于预训练和微调阶段。动态的、终身学习的、强化学习/迁移学习/元学习的AI Agent的学习模式是「预训练微调可选 提示工程可选 在线学习Online Learning 强化学习Reinforcement Learning 迁移学习Transfer Learning 元学习Meta-Learning」——预训练和微调阶段与工具AI类似但在线学习阶段是在使用过程中主动从用户的反馈、任务的结果、外部世界的数据中学习新的知识强化学习阶段是通过奖励机制Reward Mechanism来优化自己的决策和执行能力迁移学习阶段是将从一个任务中学到的知识迁移到另一个类似的任务中元学习阶段是学习如何学习能够快速适应新的任务AI Agent的知识会随着使用时间的增长而不断积累和更新。工具AI示例早期的机器翻译工具比如谷歌翻译的2010年版本早期的谷歌翻译工具是基于统计机器翻译(SMT)或规则机器翻译(RMT)的学习模式是静态的、预训练的——所有的翻译规则和统计数据都来自于预训练阶段不会在使用过程中主动学习新的词汇、语法、翻译习惯如果用户输入了一个新的网络流行语比如「yyds」早期的谷歌翻译工具会直接翻译成「yyds」或者错误的结果不会主动学习这个流行语的意思和正确的翻译方法。自主AI示例专业的机器翻译AI Agent专业的机器翻译AI Agent的学习模式是动态的、终身学习的1. 如果用户输入了一个新的网络流行语比如「yyds」AI Agent会主动搜索外部世界的数据比如百度百科、维基百科、微博、抖音来学习这个流行语的意思和正确的翻译方法2. 如果用户对AI Agent的翻译结果不满意给出了反馈比如「这个地方应该翻译成『永远的神』而不是『yyds』」AI Agent会主动记录这个反馈下次再遇到类似的情况就会直接翻译成「永远的神」3. AI Agent会主动学习不同领域的专业术语比如医学、法律、计算机科学通过迁移学习将从一个领域学到的翻译知识迁移到另一个领域4. AI Agent会学习如何快速适应新的语言对通过元学习只需要少量的样本就能掌握新的语言对的翻译方法。决策自主性完全没有工具AI的所有决策都由用户的指令或预定义的规则决定不会主动做出任何决策——即使有多个备选方案工具AI也会直接把所有备选方案都列出来让用户自己选择不会主动推荐最优方案。有一定程度的AI Agent的决策自主性由其核心大模型的能力、预定义的权限范围、奖励机制共同决定——在预定义的权限范围内AI Agent会主动做出最优决策基于数据分析、风险评估、用户偏好不需要用户频繁干预如果决策涉及到用户的隐私、资金安全、重大利益AI Agent会主动暂停决策等待用户的二次授权。工具AI示例早期的导航APP比如高德地图的2015年版本早期的高德地图APP没有决策自主性——用户输入「从北京天安门广场到上海东方明珠塔」早期的高德地图APP会直接列出所有备选路线最短路线、最快路线、最省钱路线让用户自己选择不会主动推荐最优方案即使路上出现了交通事故导致最快路线变成了最慢路线早期的高德地图APP也不会主动调整路线只会提醒用户「前方有交通事故请小心驾驶」。自主AI示例专业的导航AI Agent专业的导航AI Agent有一定程度的决策自主性1. 在预定义的权限范围内比如「用户允许AI Agent主动调整路线」AI Agent会主动分析所有备选路线基于实时路况、天气、用户偏好比如用户喜欢走高速、不喜欢走拥堵路段主动推荐最优路线2. 如果路上出现了交通事故、道路施工、恶劣天气等突发情况导致当前路线不再是最优路线AI Agent会主动调整路线不需要用户频繁干预3. 如果AI Agent推荐的路线需要经过收费路段并且用户没有明确允许AI Agent会主动暂停决策等待用户的二次授权「我刚才推荐的路线需要经过收费路段预计收费50元请问你是否同意」容错能力很差工具AI的容错能力很差——如果用户输入的问题或指令有一点点模糊、错误、冗余工具AI就会给出错误的结果或者直接拒绝如果工具AI在执行任务的过程中遇到了一点点问题比如网络超时、API返回错误、数据缺失工具AI就会停下来等待用户的干预。很强AI Agent的容错能力很强——如果用户输入的需求有模糊、错误、冗余AI Agent会主动提问澄清需求如果AI Agent在执行任务的过程中遇到了问题比如网络超时、API返回错误、数据缺失AI Agent会主动尝试备选方案比如换个API、换个数据源、换个时间再试不需要用户频繁干预如果AI Agent给出的结果有错误AI Agent会主动从用户的反馈中学习下次避免再犯同样的错误。工具AI示例早期的语音识别工具比如苹果Siri的2011年版本早期的苹果Siri的容错能力很差——如果用户说话有一点点口音、噪音、模糊早期的Siri就会识别错误比如用户说「你好Siri帮我订一张明天下午3点从北京到上海的高铁票」早期的Siri可能会识别成「你好Siri帮我订一张明天下午3点从北京到伤害的糕票」然后直接拒绝「对不起我找不到从北京到伤害的糕票。」自主AI示例专业的语音识别任务执行AI Agent专业的语音识别任务执行AI Agent的容错能力很强——如果用户说话有口音、噪音、模糊AI Agent会主动结合上下文语境、用户的历史记录、外部世界的数据来修正识别错误比如用户说「你好Siri帮我订一张明天下午3点从北京到伤害的糕票」AI Agent会主动修正「请问你是不是想说『帮我订一张明天下午3点从北京到上海的高铁票』如果是的话我马上帮你查询如果不是的话请你重新说一遍。」如果AI Agent在查询高铁票的过程中遇到了网络超时AI Agent会主动尝试备选方案「对不起我刚才调用高铁票查询接口的时候遇到了网络超时我现在换个数据源再试一下请你稍等。」协作能力几乎没有工具AI的协作能力几乎没有——只能与单个用户进行「问题-回答」或「指令-结果」的交互不会与其他AI Agent或多个用户进行协作如果需要完成一个需要多个步骤、多个工具、多个领域知识的复杂任务用户必须自己把任务拆成小步骤然后逐个调用工具AI工具AI之间不会进行任何信息共享或协作。很强AI Agent的协作能力很强——不仅能与单个用户进行「需求-闭环」的交互还能与其他AI Agent比如专业的股票投资AI Agent、专业的内容创作AI Agent、专业的个人助理AI Agent或多个用户比如团队成员、合作伙伴进行多轮、多模态、跨领域的协作如果需要完成一个复杂任务多个AI Agent会自动分工协作共享信息共同完成任务。工具AI示例完成一个「市场调研→产品设计→商业计划书撰写」的复杂任务如果用户用工具AI完成这个复杂任务必须自己把任务拆成小步骤然后逐个调用工具AI1. 调用ChatGPT-4o加了市场调研插件完成市场调研2. 调用Midjourney完成产品设计的图像3. 调用Figma的AI插件完成产品设计的原型4. 再次调用ChatGPT-4o把市场调研结果、产品设计图像、产品设计原型整合起来撰写商业计划书在这个过程中工具AI之间不会进行任何信息共享或协作用户必须自己把每个工具AI的输出整理成下一个工具AI的输入非常麻烦。自主AI示例完成一个「市场调研→产品设计→商业计划书撰写」的复杂任务如果用户用AI Agent完成这个复杂任务只需要说「你好帮我完成一个关于『智能宠物喂食器』的市场调研→产品设计→商业计划书撰写的复杂任务。」AI Agent会怎么做它会自动组建一个AI Agent团队1.队长AI Agent负责任务拆解、分工协作、信息共享、进度管理、结果整合2.市场调研AI Agent负责市场调研目标用户分析、竞争对手分析、市场规模分析、市场趋势分析3.产品设计AI Agent负责产品设计产品功能设计、产品外观设计、产品原型设计4.商业计划书撰写AI Agent负责商业计划书撰写把市场调研结果、产品设计结果整合起来撰写完整的商业计划书在这个过程中多个AI Agent会自动分工协作共享信息共同完成任务不需要用户频繁干预最后队长AI Agent会把整合好的结果反馈给用户。价值创造方式「替代人类的重复性工作」提高人类的工作效率工具AI的价值创造方式比较单一主要是替代人类完成一些「重复性高、规则明确、不需要创造力、不需要决策」的工作比如整理会议纪要、翻译文本、写简单的文案、自动补全代码从而提高人类的工作效率。「辅助人类的创造性工作」「自主完成复杂的任务」「创造新的价值」AI Agent的价值创造方式非常多元不仅能辅助人类完成一些「需要创造力、需要决策、需要跨领域知识」的创造性工作比如艺术创作、科学研究、产品设计、商业决策还能自主完成一些「需要多个步骤、多个工具、多个领域知识」的复杂任务比如市场调研→产品设计→商业计划书撰写、股票投资、旅行规划、个人财务管理甚至还能创造新的价值比如发现新的科学规律、开发新的产品、创作新的艺术作品、开拓新的市场。工具AI示例GitHub CopilotGitHub Copilot的价值创造方式是「替代人类的重复性代码编写工作」提高程序员的工作效率——程序员只需要输入一段简单的注释或者代码开头GitHub Copilot就会自动补全剩下的代码从而节省程序员的时间和精力。自主AI示例专业的科学研究AI Agent专业的科学研究AI Agent的价值创造方式非常多元1.辅助人类的创造性工作辅助科学家完成文献调研、数据分析、实验设计、论文撰写等工作从而提高科学家的工作效率2.自主完成复杂的任务自主完成一些「需要多个步骤、多个工具、多个领域知识」的复杂科学研究任务比如「从大规模的基因测序数据中发现新的致病基因」3.创造新的价值比如DeepMind的AlphaFold AI Agent它自主发现了蛋白质的三维结构解决了困扰生物学界50多年的「蛋白质折叠问题」创造了巨大的科学价值和商业价值。第三步用「Transformer架构的局限性分析」澄清第二个认知问题大模型为什么不能直接当自主AI用现在我们知道了工具AI与自主AI的本质区别也知道了AI Agent是由「通用大模型(LLM/LMM)」作为核心大脑的——那为什么大模型不能直接当自主AI用呢这是因为Transformer架构的大模型本身存在四个根本性的局限性这些局限性决定了它只能当「工具AI的核心」不能当「自主AI的核心」除非给它装上「眼睛」「手脚」「记忆库」「大脑前额叶」「任务管理器」这些模块。下面我们从技术层面详细分析这四个根本性的局限性局限性一Transformer架构的「因果注意力机制(Causal Attention Mechanism)」导致大模型「缺乏长期记忆能力」和「缺乏全局规划能力」我们先来看一下Transformer架构的核心——自注意力机制(Self-Attention Mechanism)尤其是因果注意力机制因为自回归语言模型(Autoregressive Language Models)比如GPT系列都是用因果注意力机制的。因果注意力机制的定义是在生成第t个token的时候只能关注第1到第t-1个token不能关注第t1到第T个tokenT是整个序列的长度。我们可以用一个「阅读文章并回答问题」的直观示例来理解因果注意力机制的局限性假设我们有一篇10000字的关于「AI Agent」的文章我们让GPT-4o阅读这篇文章然后回答一个问题「请总结一下这篇文章中提到的AI Agent的五个核心模块。」如果我们直接把这篇10000字的文章全部输入到GPT-4o的上下文窗口里GPT-4o可以很好地回答这个问题——因为因果注意力机制允许它关注整个上下文窗口里的所有token只要这些token在当前生成的token之前。但是如果这篇文章的长度是100000字超过了GPT-4o的上下文窗口GPT-4o的上下文窗口有两个版本8K和128K128K版本大概可以处理100000字左右的中文文本那怎么办我们可以用「滑动窗口法(Sliding Window Method)」或者「递归摘要法(Recursive Summarization Method)」来处理滑动窗口法把100000字的文章分成10个10000字的窗口然后逐个输入到GPT-4o的上下文窗口里让GPT-4o阅读每个窗口的内容然后回答问题——但这个方法有一个问题GPT-4o在阅读第2个窗口的时候已经完全忘记了第1个窗口的内容因为因果注意力机制只能关注当前上下文窗口里的token不能关注之前的上下文窗口里的token所以它无法总结出整个文章中提到的AI Agent的五个核心模块。递归摘要法把100000字的文章分成10个10000字的窗口然后逐个输入到GPT-4o的上下文窗口里让GPT-4o为每个窗口生成一个1000字的摘要然后把这10个1000字的摘要整合起来生成一个10000字的总摘要再把这个总摘要输入到GPT-4o的上下文窗口里让GPT-4o回答问题——这个方法虽然可以让GPT-4o回答问题但有一个问题在递归摘要的过程中会丢失大量的细节信息比如AI Agent的五个核心模块的具体功能、实现机制、应用场景等所以GPT-4o总结出来的内容会非常模糊、空洞。除了「缺乏长期记忆能力」之外因果注意力机制还导致大模型「缺乏全局规划能力」——因为因果注意力机制是「自左向右、逐token生成」的大模型在生成第t个token的时候只能看到第1到第t-1个token不能看到第t1到第T个token所以它无法提前规划整个序列的结构只能「走一步看一步」。我们可以用一个「写一篇10000字的关于『AI Agent的核心进化路径』的技术博客」的直观示例来理解这个局限性如果我们直接让GPT-4o写这篇10000字的技术博客它会「走一步看一步」地写先写引言再写概念地图再写基础理解再写层层深入再写多维透视再写实践转化最后写整合提升——但在写引言的时候它不知道后面的概念地图、基础理解、层层深入等章节会写什么内容所以引言的内容可能会与后面的章节重复或者矛盾在写概念地图的时候它不知道后面的层层深入章节会涉及哪些技术细节所以概念地图的内容可能会遗漏一些重要的概念在写层层深入章节的时候它不知道后面的实践转化章节会用到哪些算法和工具所以层层深入章节的内容可能会与实践转化章节脱节。局限性二Transformer架构的「静态权重(Static Weights)」导致大模型「缺乏在线学习能力」和「缺乏快速适应能力」Transformer架构的大模型的所有知识都存储在静态的权重参数里——这些权重参数是在预训练阶段和微调阶段学习到的一旦预训练和微调完成这些权重参数就会固定下来不会在使用过程中主动更新。静态权重的局限性主要体现在两个方面缺乏在线学习能力大模型无法在使用过程中主动从用户的反馈、任务的结果、外部世界的实时数据中学习新的知识所有的知识都来自于预训练和微调阶段的静态数据集——如果预训练和微调阶段的静态数据集里没有某个知识比如2024年7月15日发生的某个新闻事件、某个新的网络流行语、某个新的技术工具大模型就不会知道这个知识除非对它进行重新微调或者重新预训练但重新微调或重新预训练需要大量的时间、计算资源和数据成本非常高。缺乏快速适应能力大模型无法快速适应新的任务——虽然GPT系列等大模型具有「少样本学习(Few-Shot Learning)」「零样本学习(Zero-Shot Learning)」「思维链(Chain of Thought, CoT)」等能力但这些能力都是「基于提示工程的启发式能力」不是「真正的元学习能力」——如果新的任务与预训练阶段的任务差异很大或者新的任务需要非常专业的领域知识大模型的少样本学习、零样本学习、思维链等能力就会失效除非对它进行重新微调。我们可以用一个「学习新的技术工具并使用它完成任务」的直观示例来理解这个局限性假设我们有一个新的技术工具叫「AgentBuilder」它可以帮助用户快速搭建自己的AI Agent我们让GPT-4o学习这个工具的使用方法然后用它搭建一个「个人财务管理AI Agent」。如果「AgentBuilder」的使用方法在GPT-4o的预训练和微调阶段的静态数据集里没有因为它是2024年7月刚发布的新工具那怎么办我们可以用「提示工程」的方法把「AgentBuilder」的官方文档输入到GPT-4o的上下文窗口里让GPT-4o学习——但这个方法有一个问题GPT-4o的上下文窗口是有限的如果「AgentBuilder」的官方文档很长比如超过了128K token我们就只能输入一部分或者用递归摘要法输入但递归摘要法会丢失大量的细节信息另外GPT-4o在使用「AgentBuilder」的过程中遇到了问题不会主动从错误中学习比如它调用「AgentBuilder」的API的时候返回了错误它会停下来问用户怎么办不会主动尝试调整API的参数、换个API、或者查看官方文档的错误处理部分。局限性三Transformer架构的「语言模型本质」导致大模型「缺乏外部世界交互能力」和「缺乏物理实体感知能力」Transformer架构的大模型的本质是「自回归语言模型」——它的输入是文本token或者图像、音频、视频等多模态token但这些多模态token最终都会被转换成文本token的向量表示它的输出也是文本token或者图像、音频、视频等多模态token但这些多模态token最终也是由文本token生成的它的所有知识
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2527663.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!