从提示式到自发式：AI心智理论的范式转变与实现路径

news2026/5/10 2:44:17

1. 项目概述从“被问才答”到“主动思考”的AI心智革命在人工智能领域我们常常惊叹于模型在特定任务上的超人表现无论是下棋、写诗还是解答复杂的数学问题。然而当我们将这些智能体置于一个需要理解“人”的环境中时比如让一个购物助手判断顾客是否在庆祝、让一个协作机器人预判队友的下一步意图它们的表现往往就变得笨拙甚至令人啼笑皆非。这背后缺失的关键一环正是人类社交智能的基石——心智理论。心智理论简单来说就是我们理解他人拥有与自己不同的信念、欲望、意图和知识并能据此预测和解释其行为的能力。它不是一种确凿的“科学理论”而是一种我们与生俱来、用以导航复杂社会世界的内在认知工具。想象一下你看到同事在办公桌抽屉里翻找你不需要他开口就能推断他“可能把钥匙忘在抽屉里了”并主动询问是否需要帮忙。这种无需提示、自发产生的推断就是自发式心智理论在起作用。反观当前绝大多数AI研究我们构建的“心智”更像是“提示式心智理论”。就像经典的“莎莉-安妮”错误信念测试研究者向AI或儿童展示一个玩偶莎莉把弹珠藏在篮子里后离开另一个玩偶安妮把弹珠移到了盒子里。然后提问“莎莉回来后会去哪里找弹珠”一个能通过测试的系统需要理解莎莉拥有一个“错误信念”她以为弹珠还在篮子里并据此给出“篮子”的答案。这固然是心智能力的一种证明但问题在于整个推理过程是由一个明确的外部问题提示所驱动和框定的。AI只是在回答一个被设计好的谜题而非在真实、开放的社会情境中主动运用心智理解。这种对提示式测试的过度依赖正将AI社会智能的研究引入一个狭窄的胡同。我们训练出的模型或许能在实验室的测试题上取得高分甚至超过六岁儿童但只需对问题做微小的、对人类而言无关紧要的改动比如改变叙述顺序或增加一个无关细节模型的性能就可能断崖式下跌。这暴露出一个严峻现实许多看似拥有“心智”的AI可能只是在玩一场复杂的“模式匹配”游戏它们记住了测试的套路而非真正构建了关于他人心智的、可泛化的内部模型。因此这篇探讨的核心是呼吁一场范式的转变从专注于“提示式心智理论”转向探索和构建“自发式心智理论”。这不仅仅是增加一个功能而是关乎我们究竟要打造什么样的人工社会智能。一个真正鲁棒、通用的人工社会智能应当像人类一样既能响应明确的社会性提示如回答“他为什么生气”也能在无人询问时自发地、持续地对周围智能体的心理状态进行建模和推理从而做出更贴合情境、更富预见性的行为。这将是AI从“工具”迈向“伙伴”的关键一步。2. 心智理论的双重面孔提示式与自发式推理的深度解析要理解为何自发式心智理论如此关键我们必须先深入拆解这两种推理模式的核心差异、认知根源及其对AI系统设计的根本性影响。2.1 提示式心智理论被设计的“社会开卷考”提示式心智理论指的是智能体无论是人还是AI在接收到明确的外部线索、指令或问题后才启动的对他人心智状态的推理过程。在心理学实验中这通常表现为直接的问题如“莎莉会去哪里找弹珠”在人机交互中这可能是一个明确的API调用如get_user_intent(query)或是在对话系统中用户直接提问“你觉得我刚才为什么那么说”这种模式的优势在于其可测量性和可操作性。研究者可以设计标准化的测试如各种变体的错误信念任务清晰地定义输入提示和期望的输出答案从而方便地评估和比较不同系统或个体的心智理论能力。在AI领域这直接对应了主流的监督学习或指令跟随范式我们给模型一个任务提示它给出一个响应。许多基于大型语言模型的“心智理论”测试正是如此向模型输入一段描述社会情境的文本然后直接询问一个关于角色心理状态的问题。然而其局限性也根植于此提示即边界系统的推理范围被提示严格限定。它只思考被问及的问题而可能完全忽略情境中其他同样重要甚至更关键的心理状态线索。例如一个购物助手被提示“分析用户购买奢侈品的动机”它可能只会围绕“庆祝”或“浪费”进行推理却忽略了用户可能正在为他人挑选礼物这一更简单的可能性。脆弱的知识泛化模型学会的是“如何回答这类提示”而非“如何理解心智”。正如Ullman的研究所示对测试任务进行细微的、对人类无影响的扰动例如改变故事中角色的名字、调整事件描述的句式就足以让性能卓越的大型语言模型失败。这表明其能力可能高度依赖于表面特征的统计规律而非对心理状态本身的抽象表征。缺乏行为自主性在真实的开放世界中没有人会时刻为AI提供精确的“心智推理提示”。一个真正的社交伙伴应该能主动察觉到你反复看时间的焦虑并提议提前结束会议而不是等你开口说“我赶时间”。2.2 自发式心智理论无时不在的“社会背景音”与提示式相反自发式心智理论是一种无需外部触发、自动化、常常是无意识的心理过程。它是我们社会认知的“默认模式网络”。当你看到有人伸手去接掉落的杯子你的大脑会瞬间预测他的意图是“接住”当你听到朋友用短促、冷淡的语气回复信息你会不自觉地推测他“可能心情不好或正在忙”。这些推断瞬间产生甚至在你意识到之前就已经影响了你的后续反应比如决定晚点再联系。从认知科学角度看自发式心智理论更接近一种模块化、直觉性的处理系统。它快速、并行、消耗认知资源少是我们在复杂社会环境中进行高效实时交互的保障。它不依赖于深思熟虑的“理论”应用而更像是一种基于情境线索的模式模拟。心理学家提出的“模拟理论”与此高度相关即我们通过将自己的心智状态“投射”或“模拟”到他人身上来理解他们。对人类而言自发式ToM的神经基础可能涉及颞顶联合区、内侧前额叶皮层等与社会认知相关的脑区这些区域的活动常常是自动化的。而对于AI实现自发式ToM意味着系统需要具备持续的表征维护在与环境或其他智能体互动时系统需要主动、持续地更新和维护关于他人信念、目标、知识状态等的内部模型而不是仅在收到查询时才临时构建。基于事件的自动触发某些环境事件或观察到的行为应能自动触发心智状态的更新和推理无需显式指令。例如看到某个智能体走向一个工具就自动推测其目标可能是使用该工具完成某项任务。预测驱动的主动行为基于持续维护的心智模型系统应能主动预测他人的未来行动或需求并据此规划自己的行为。例如一个家庭服务机器人看到主人拿着购物袋进门应主动预测主人可能需要帮助整理物品并前往门口等候指令或直接提供帮助。2.3 核心分野从“答题机器”到“社会参与者”将两者对比其本质区别在于AI在社会交互中的角色定位。提示式AI是“答题机器”它被动等待问题在问题定义的封闭空间内进行计算目标是输出一个符合提示期待的正确答案。它的社会交互是回合制、任务导向的。自发式AI是“社会参与者”它将自己置于一个动态变化的社会情境中主动构建并更新关于其他参与者的心智模型并利用这些模型来指导自己的实时决策和行动。它的社会交互是持续、情境化的。当前AI研究的困境在于我们用了大量精力去打造更优秀的“答题机器”用越来越复杂的提示工程和测试基准来评估它却忽略了真正的社会智能首先是一个“参与者”。一个能在标准化测试中得满分的系统可能在真实的、混乱的、多智能体协作的开放环境中完全不知所措因为它从未被要求或设计去进行那种持续、自发的心智建模。注意这里存在一个重要的概念辨析。自发式ToM并非否定或替代提示式ToM而是其必要补充。一个健全的社会智能体应当两者兼备既能处理明确的社会性查询提示式也能在背景中持续进行社会监控和推理自发式。目前AI的短板恰恰在于后者几乎完全缺失。3. 当前AI心智理论的实现路径与根本局限理解了两种心智理论的区别后我们再来审视AI领域现有的实现方法就能更清晰地看到其局限所在以及为何向自发式范式转变如此迫切。3.1 主流实现路径从符号推理到数据驱动的模式匹配目前赋予AI心智理论能力的尝试大致可分为三类但它们大多深陷于“提示式”的范式之中。1. 基于符号与逻辑的显式建模如PsychSim这类方法源于认知架构和决策理论。以PsychSim平台为例它创建了一个多智能体模拟环境每个智能体都拥有显式表示的信念、目标、能力等心智状态。智能体通过递归推理来进行心智理论计算例如智能体A在决策时会考虑“智能体B认为我认为X”这需要多层嵌套的信念建模。原理将心智状态视为可以符号化表示和逻辑推理的实体。通过规划算法如基于决策论或博弈论智能体模拟其他智能体在特定信念下的可能行动从而预测其行为。优势模型透明、可解释性强能处理复杂的嵌套信念和策略性互动。局限与“提示性”系统的推理范围和深度常常由设计者预设的参数如递归层数、关注哪些信念严格限定。这本质上是一种架构层面的提示——研究者通过设计告诉系统“在何种程度上、对哪些方面”进行心智推理。它缺乏从原始交互数据中自发形成和调整心智模型的能力泛化性差难以扩展到开放域。2. 基于深度学习的隐式学习如ToMnet这类方法试图让AI从观察其他智能体的行为数据中直接学习其策略、目标或信念模型。例如DeepMind的ToMnet包含一个“观察者”网络通过观察其他“执行者”智能体在网格世界中的行动轨迹来学习预测其下一步行为。原理将心智理论视为一个表示学习问题。观察者网络从行为序列中提取特征并映射到潜在空间中的一个向量这个向量隐式地编码了被观察者的策略、目标等心智状态。优势能够从高维、复杂的行为数据中自动学习无需人工定义心智状态的具体结构更具灵活性。局限与“提示性”模型的训练目标本身就是一种强烈的提示。ToMnet的观察者网络被训练来回答一个特定问题“给定历史行为目标智能体下一步会做什么”它的整个表征学习都是为了优化这个特定预测任务。因此它学会的是“如何为这个预测任务构建有用的特征”而不一定是构建一个通用、可分解、可解释的“心智理论”。一旦任务稍有变化例如要求推断智能体的长期目标而非下一步动作模型可能就需要重新训练。3. 大型语言模型中的“涌现”能力近年来像GPT-4这样的大型语言模型在标准心智理论测试上表现出了令人惊讶的能力甚至能超过幼童。这引发了一场争论LLMs是否真的发展出了心智理论原理LLMs通过在超大规模文本语料上的训练学习了人类语言中蕴含的关于信念、意图、知识状态等概念的复杂统计模式。当被提示一个社会情境时它能基于这些模式生成符合人类预期的回答。优势无需针对心智理论进行专门设计或训练能力似乎“涌现”自通用语言建模。在格式规范的测试题上表现强大。根本局限与“提示性”LLMs是当前“提示式心智理论”的极致体现。它的所有输出都严格依赖于输入提示。更关键的是多项研究如Ullman, 2023表明LLMs的成功极度脆弱。对测试叙述进行微小的、语义不变的改动如将“莎莉把弹珠放在篮子里”改为“莎莉将弹珠置于篮中”或引入需要区分“知道”和“相信”的细微差别都可能导致其性能大幅下降。这强烈暗示LLMs可能并没有构建一个关于角色信念的稳健的内部世界模型而是在进行一种基于表面语言模式的精巧插值。它擅长回答“看起来像心智理论问题”的问题而非真正进行心智推理。3.2 通用性瓶颈为何现有方法难以实现自发式ToM上述所有方法在迈向自发式、鲁棒的社会智能时都面临几个共通的根本性瓶颈任务定义的狭隘性无论是PsychSim的递归层数ToMnet的预测目标还是LLMs的测试题现有研究都将心智理论操作化为一个个具体的、封闭的任务。系统被训练或设计来完成这些任务而不是为了获得一种通用的、可随时调用的社会认知能力。这就像训练一个学生只为了通过特定的考试而非掌握一门学科。对显式提示/信号的依赖所有系统的“心智推理开关”都是由外部触发的——一个明确的查询、一个预设的交互协议、一个特定的训练目标。它们缺乏在无明确社会性任务的背景下持续、自动运行心智推理模块的内在动力和架构。缺乏具身与情境交互人类的自发式ToM深深植根于我们作为具身主体与物理和社会环境持续互动的经验中。当前大多数AI心智研究停留在文本描述或简化的网格世界缺乏与丰富、动态、多模态视觉、听觉、触觉环境的实时互动。这种互动是产生和理解意图、注意力等基本心智状态的关键源泉。评估范式的误导性我们过度依赖“通过测试”作为拥有ToM的证据。但正如心理学研究所揭示的通过错误信念测试可能只需要较低水平的认知过程如视觉视角采择或规则学习。我们亟需开发能直接探测自发心智状态归因的评估方法例如观察AI在未受指令时是否会将其行为规划建立在对他者信念的预测之上。4. 迈向自发式人工社会智能原则、路径与挑战构建具备自发式心智理论的AI不是对现有方法的简单修补而需要从研究范式到技术路径的全面革新。以下是一些可能的原则和方向。4.1 核心设计原则从“测试通过”到“能力涌现”以持续心智建模为核心目标而非任务性能在设计智能体架构时应将其持续维护和更新其他实体心智模型作为一个核心的、常驻的子系统就像感知系统一样。这个子系统的输出即对其他智能体信念、目标等的当前估计应作为决策、规划、语言生成等所有其他模块的基础输入之一而不是仅在特定任务中被调用。设计开放式的社会情境而非封闭的测试任务评估环境应从“问答”转向“开放式合作或竞争”。例如设计一个需要多个AI智能体协作完成物理任务如共同搭建积木的环境。成功的协作要求智能体必须自发地推断队友的目标、计划、当前对世界状态的信念比如“他认为那块积木不稳”并据此调整自己的行动。研究者通过分析智能体在任务过程中的行为序列、沟通内容如果有和最终结果来间接评估其心智建模的质量而不是直接提问。利用多模态与具身交互数据为AI提供第一人称视角的视觉、听觉、运动感知数据让它像婴儿一样通过观察他人的行动眼动、手势、物体操纵与环境的相互作用来学习将可观察的行为与不可观察的心智状态联系起来。这有助于建立更基础、更稳健的心智状态表征。引入“反事实推理”与“解释生成”作为训练信号要求智能体不仅预测行为还要能生成对他人行为的解释“他为什么这么做可能因为他相信X”或进行反事实推理“如果他知道Y他会怎么做”。这迫使模型构建更明确、更因果化的心智模型而不仅仅是行为预测器。4.2 潜在技术路径探索基于生成式世界模型的整合近年来在强化学习和机器人学中学习环境的“世界模型”成为一个热点。我们可以扩展这一概念要求智能体学习一个包含其他智能体心智状态的生成式世界模型。这个模型不仅能预测物理状态的演变还能预测其他智能体信念和意图的演变。智能体通过与这个模型的“想象”进行交互来规划自己的行动其决策过程自然就包含了对他者心智的考量。分层强化学习与内在动机在分层强化学习框架中高层控制器设定抽象目标低层控制器执行具体动作。可以设计一种社会性内在动机作为高层目标的一部分。例如赋予智能体一种“减少对其他智能体行为预测误差”的内在驱动力。为了满足这种驱动力智能体会主动去探索和学习他者的行为模式从而自发地构建心智模型。神经符号结合的新思路结合符号系统的可解释性与神经系统的学习能力。例如使用神经网络从原始交互数据中提取可能的心智状态假设符号命题如“Agent_Believes(Box_Is_Empty)”然后使用一个轻量级的符号推理机基于常识规则对这些假设进行一致性检查和推理。这种架构可能更易产生可解释、可泛化的自发推理。从人-人交互数据中学习利用大规模的人-人对话、协作视频如游戏直播、教学视频、会议记录进行自监督学习。训练模型去预测在给定情境下一个人会对另一个人说什么或做什么。要完成这种预测模型必须隐式地推断视频中人物的心智状态。这可能是让AI学习人类式自发社会推理的宝贵数据源。4.3 严峻挑战与未来展望道路无疑是艰难的我们面临诸多挑战评估难题如何客观、可靠地评估一个AI系统是否在进行“自发”的心智推理这比设计一个测试题要困难得多。可能需要结合定量行为分析、定性案例研究以及神经科学启发的方法如检测系统内部表征是否与特定心智状态对应。计算复杂度持续维护多个智能体、多层嵌套的信念模型计算开销巨大。需要发展更高效的心智状态表示和推理算法。“他心”问题的哲学与伦理困境我们最终如何判断一个AI系统是真正“理解”了他者的心智还是仅仅完美地模拟了相关行为这触及了哲学上的他心问题。此外赋予AI强大的心智推断能力也带来伦理风险如隐私侵犯推断用户不想透露的想法或情感操纵。与情感、文化等复杂因素的整合真实的社会智能远不止于信念和意图推理还包括共情、情感理解、文化背景考量等。自发式ToM是基石但远非终点。尽管挑战重重但向自发式心智理论的范式转变是AI迈向真正社会智能的必由之路。未来的AI助手将不仅能回答“我的客户现在可能想要什么”更能从客户浏览商品时的细微停顿、反复对比的行为中主动推断其犹豫不决的原因是在担心价格、质量还是合适性并适时提供恰到好处的信息或建议。未来的协作机器人将不仅能执行“把工具递给我”的指令更能在我伸手却未言明时就判断出我需要的是螺丝刀而不是扳手。这不仅仅是技术的进步更是人机关系的一次重塑。当AI开始具备自发理解我们心智的潜力时我们与机器的互动将变得更加自然、流畅和富有深度更像与一个真正的社会主体共存。当然这也要求我们以更大的智慧和责任感来引导这项技术的发展确保其最终增进人类的福祉与合作而非带来新的隔阂与风险。这条路始于对“自发心智”的求索而它的终点或许是重新定义我们眼中的人与机器。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2599355.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！