论文解读：生成式智能体让25个AI小人自己组织了一场情人节派对

news2026/5/16 20:33:41

有没有想过一个AI能不能过日子不是回答你的问题不是帮你写代码不是在benchmark上刷分——而是真的像一个人那样早上起来刷牙出门前和家人聊两句路上碰到邻居寒暄几句选举八卦晚上因为暗恋某人而纠结要不要邀请对方参加派对。斯坦福和Google的一支团队真的做了这件事——他们造了一个像素风虚拟小镇放进去25个AI居民只给了一个种子指令Isabella想办一场情人节派对然后什么都没管。两天后派对真的办成了。有人传话、有人布置场地、有人约心仪对象一起去、有人因为太忙没来还给出了合理的理由。这不是脚本不是预编程是涌现。1. 为什么可信行为是智能体的终极难题让AI完成一个任务不难。让AI在一个开放世界里持续数天地表现出前后一致、符合人设、能被人类观察者认为可信的行为——这难得多。过去四十年游戏AI和认知科学社区一直在追求这个目标。从有限状态机到行为树从SOAR认知架构到强化学习每一代方案都在某个维度上取得了进展但没有一个真正解决了开放世界中的可信行为问题。有限状态机和行为树——也就是《模拟人生》和《质量效应》背后的技术——本质上是人工编写的剧本。你能覆盖多少种情况NPC就能表现多少种行为。但开放世界的交互空间是无限的穷举不可能。强化学习在对抗性游戏里表现惊艳——AlphaStar打星际、OpenAI Five打Dota2都是超人水平。但它们的成功依赖于明确可定义的奖励函数。表现得像个可信的人这件事你怎么定义奖励认知架构如SOAR、ACT-R试图从底层构建完整的认知功能但它们的行动空间仍然局限于手工编写的程序性知识无法自发产生新行为。三条路都没有真正触及核心问题如何让智能体基于不断增长的经验自主地产生前后一致的、可信的行为2. 大语言模型是答案吗不完全是大语言模型LLM从训练数据中编码了海量的人类行为模式。如果你给它一个足够具体的上下文它确实能生成看起来可信的行为。之前的工作已经证明了这一点——Social Simulacra用LLM生成社交平台上的虚拟用户Horton用LLM模拟经济学实验中的被试。但这些都是单点模拟——在某一个时刻给定当前情境生成一个合理的反应。问题出在时间维度上。如果你只是在每个时间步问LLM现在该做什么Klaus会在12点吃午饭12:30又吃午饭1点还在吃午饭。模型优化的是此刻的合理性牺牲的是跨时间的一致性。更关键的是一个智能体在两天的模拟中会积累数百条经验记录。这些记录远远超出了LLM的上下文窗口。你不能把所有记忆都塞进prompt——不仅放不下即使放下了模型也会被无关信息淹没给出泛泛而谈的回答。研究团队由斯坦福大学的Joon Sung Park、Percy Liang、Michael S. Bernstein以及Google Research的Carrie J. Cai和Google DeepMind的Meredith Ringel Morris共同组成。Percy Liang是斯坦福NLP组的核心人物长期深耕语言模型的能力评估与应用Michael Bernstein在人机交互领域有深厚积累是Social Simulacra的共同作者。这支队伍横跨HCI、NLP和AI系统三个方向几乎是做这件事的最佳组合。图1图1展示了25个AI居民在虚拟小镇中的生活场景——咖啡馆、公园、住宅区一应俱全每个小人头顶都有emoji表示当前行为能直观感受到这个实验的规模和真实感。3. 记忆流给AI装一个人生日记本Generative Agents架构的第一个核心组件叫Memory Stream记忆流——一个用自然语言记录智能体全部经历的长期记忆数据库。这就像给每个AI小人配了一本无限长的日记。每一条记忆对象包含三个要素自然语言描述、创建时间戳、最近访问时间戳。最基础的记忆单元是观察observation——智能体直接感知到的事件。比如Isabella Rodriguez正在摆放糕点、冰箱空了、Maria Lopez正在复习化学考试。但光有记忆不够关键是检索。当智能体需要决定下一步行动时系统不会把整本日记都翻出来而是用一个检索函数从记忆流中提取最相关的子集。这个检索函数由三个维度加权组合时近性Recency最近访问过的记忆得分更高。实现上是一个指数衰减函数衰减因子0.995以游戏小时为单位。翻译成人话——今天早上的事比上周的事更容易被想起来这符合人类记忆的规律。重要性Importance区分日常琐事和重大事件。直接让LLM对每条记忆打分1-10分。刷牙得2分向暗恋对象表白得8分。这个分数在记忆创建时就生成了。相关性Relevance与当前情境的关联度。用记忆文本的embedding向量和查询文本的embedding向量做余弦相似度计算。最终检索分数 α_recency × 时近性 α_importance × 重要性 α_relevance × 相关性。三个α都设为1取得分最高的记忆填入prompt。这意味着什么意味着当Isabella被问到你最近对什么有热情时系统不会给出一个泛泛的总结她关心活动策划和咖啡馆卫生而是精准地检索出她对情人节派对的热情、对让人们感到被欢迎的执着——因为这些记忆同时满足了时近、重要和相关三个条件。图2图2清晰展示了记忆检索的工作原理从海量记忆流中通过时近性、重要性和相关性三个维度的加权筛选出最相关的记忆子集传递给语言模型。左侧是完整的记忆流右侧是检索后的精简版本——这个过滤过程决定了智能体行为的质量。4. 反思从记住到理解只有原始观察记忆的智能体能记住事情但不能理解事情。考虑这个场景问Klaus Mueller如果你只能选一个人共度一小时你选谁如果只有观察记忆Klaus会选Wolfgang——因为他们见面次数最多。但实际上Wolfgang只是他的宿舍邻居两人只是路过打招呼从未深入交流。更合理的答案是Maria——因为Klaus花了大量时间做城市化研究Maria也在做自己的研究项目他们有共同的学术热情。但要得出这个结论智能体需要从Klaus每天在图书馆待8小时写论文这些零散观察中归纳出Klaus对研究充满热情这个高层推断。这就是反思Reflection机制的作用。反思是第二种记忆类型——更高层、更抽象的思考由智能体自己生成。它和普通观察一样存储在记忆流中参与检索。触发条件当最近感知事件的重要性分数之和超过阈值150系统触发一次反思。实际运行中每个智能体大约每天反思2-3次。反思的生成过程分两步第一步确定反思主题。系统把最近100条记忆喂给LLM问基于以上信息我们能回答的3个最重要的高层问题是什么模型可能输出Klaus Mueller对什么话题充满热情Klaus Mueller和Maria Lopez的关系是什么第二步生成洞察。用这些问题作为查询去检索相关记忆包括之前的反思然后让LLM提炼洞察并引用证据。比如Klaus Mueller对城市化研究非常投入基于记忆1、2、8、15。更关键的是反思可以基于其他反思再次反思——形成一棵反思树。叶节点是原始观察越往上越抽象。这让智能体能够从大量碎片化的日常经历中逐步构建出对自己和他人的深层理解。图3图3中Klaus Mueller的反思树是最好的例证底层是Klaus在写研究论文、Klaus在读城市化的书这些具体观察中层归纳出Klaus对城市化研究很投入顶层抽象为Klaus对研究高度专注。这种递归的抽象能力让智能体从记住事情进化到理解自己。5. 规划从此刻合理到全天连贯没有规划的智能体会反复吃午饭。有了规划Klaus的下午变成了12点在Hobbs Cafe边吃午饭边看书1点去图书馆写论文3点去公园散步休息。规划机制采用自顶向下的递归分解策略第一层生成全天粗略计划。系统把智能体的身份描述、前一天的活动摘要喂给LLM让它补全今天的计划大纲。输出通常是5-8个时间块1) 8点起床完成晨间流程2) 10点去Oak Hill College上课... 5) 1点到5点创作新音乐6) 5:30吃晚饭7) 11点前完成作业并睡觉。第二层将每个粗略块分解为小时级动作。1点到5点创作新音乐变成1:00 头脑风暴灵感... 4:00 短暂休息补充能量...第三层进一步分解为5-15分钟的细粒度动作。4:00 吃点水果或坚果4:05 在工作区周围短暂散步...这些计划存入记忆流参与后续检索。但计划不是死的——当智能体感知到新事件时系统会判断是否需要打断当前计划做出反应。比如John Lin看到儿子Eddy在花园散步。系统检索John关于Eddy的记忆Eddy在做音乐创作项目、Eddy喜欢散步时思考音乐然后判断John可能会主动搭话问问创作进展。如果决定反应系统会从反应时刻开始重新生成计划。对话生成也基于同样的记忆检索机制。John发起对话时系统用他对Eddy的记忆摘要来生成第一句话Eddy回应时系统用Eddy对John的记忆摘要和当前对话历史来生成回复。对话持续进行直到某一方决定结束。6. Smallville一个AI小镇的两天生活研究团队用Phaser游戏框架搭建了一个像素风的沙盒小镇Smallville。25个智能体在其中生活有咖啡馆、酒吧、公园、学校、宿舍、住宅和商店。环境被表示为树形数据结构——厨房是房子的子节点炉子是厨房的子节点。每个智能体初始化时只有一段自然语言描述作为种子记忆。比如John Lin的描述包括他是药店店员、和妻子Mei大学教授及儿子Eddy音乐专业学生住在一起、认识隔壁的老夫妇Sam和Jennifer Moore、和同事Tom Moreno是朋友并喜欢讨论地方政治。然后模拟开始运行。一个典型的早晨John 7点起床刷牙、洗澡、穿衣、吃早餐、看新闻。8点Eddy起床赶着去上课和John简短聊了几句音乐创作的进展。Eddy走后Mei起床问John儿子的情况John准确地复述了刚才和Eddy的对话内容。然后Mei去教书John去开药店。没有任何脚本。所有行为都是架构自主生成的。图4图4里John Lin的一个早晨被完整记录下来6点起床、7点刷牙洗澡、7:45吃早餐、8点和儿子Eddy聊天、8:30和妻子Mei交流、9点出门去药店。每个时间节点都标注了具体行为和地点展示了智能体如何将高层计划分解为细粒度动作并在真实环境中执行。7. 涌现的社会行为信息扩散、关系形成与群体协调最令人惊叹的不是个体行为而是群体层面的涌现现象。信息扩散模拟开始时只有Sam知道自己要竞选镇长只有Isabella知道自己要办情人节派对。两天后32%的智能体知道了Sam的竞选消息52%知道了派对的事——全部通过智能体之间的自然对话传播没有任何人工干预。研究团队逐一验证了每个知道的智能体确实在记忆流中有对应的对话记录不是幻觉。关系形成模拟开始时的社交网络密度是0.167两天后增长到0.74。智能体在公园偶遇、在咖啡馆搭话、在图书馆讨论研究——新关系就这样自然形成了。Sam在公园遇到了之前不认识的LatoyaLatoya提到自己在做摄影项目后来再次相遇时Sam主动问你的项目进展怎么样——他记住了。群体协调情人节派对的组织过程是最精彩的案例。Isabella在咖啡馆和其他地方遇到朋友和顾客时邀请他们13号下午她开始布置场地好友Maria来帮忙装饰Maria当晚邀请了自己暗恋的Klaus一起去Maria的人设里写了她暗恋Klaus14号下午5点5个智能体准时出现在Hobbs Cafe参加派对。12个被邀请的智能体中5个来了7个没来。没来的人中3个给出了合理的冲突理由比如画家Rajiv说我在准备画展没时间4个表示有兴趣但当天没有把它排进计划。这不是bug这是真实社交的样子。图5图5是情人节派对当天的场景截图Hobbs Cafe里聚集了5个智能体他们的头顶emoji显示着各自的社交状态。这张图记录了一个完全自发涌现的社交事件——从Isabella最初的想法到信息在社交网络中扩散再到最终的群体协调整个过程没有任何人工干预。图6图6这幅信息扩散路径图更是惊人从Isabella作为源头通过12条不同的传播路径派对邀请最终触达了13个智能体。每条边代表一次对话每个节点标注了智能体听说派对的具体时间。这张图可视化了信息如何在AI社交网络中自然流动——就像真实世界的口口相传。8. 消融实验每个组件都不可或缺研究团队设计了一个精巧的评估方案用自然语言采访智能体测试它们在自我认知、记忆、规划、反应和反思五个维度的表现。100名人类评估者对比了五种条件下的回答可信度完整架构观察反思规划无反思观察规划无反思无规划仅观察全部消融无记忆、无反思、无规划人类众包工人撰写的回答结果用TrueSkill评分系统量化完整架构得分29.89无反思26.88无反思无规划25.64人类众包22.95全部消融21.21。去掉反思 → 智能体无法做出需要深层综合的判断。Maria被问给Wolfgang买什么生日礼物时没有反思的她说不确定他喜欢什么有反思的她说他对数学音乐创作感兴趣可以买相关的书或软件。去掉规划 → 行为失去时间连贯性。去掉所有记忆 → 退化为纯LLM的单点生成表现甚至不如人类众包工人。完整架构与全部消融之间的效应量是Cohens d 8.16——八个标准差。这说明记忆、反思和规划三个组件的叠加效果不是锦上添花而是质变级别的提升。图7图7中TrueSkill评分的可视化结果一目了然完整架构蓝色显著高于所有消融版本甚至超过了人类众包工人的表现。每去掉一个组件性能就下降一个台阶。这张图用数据证明了一个简单的事实——记忆、反思、规划缺一不可。9. 局限与边界AI小人也会犯傻研究团队诚实地报告了三类典型错误空间决策退化随着智能体探索的地点越来越多选择行动地点变得困难。一些智能体学到了附近有个酒吧后开始去酒吧吃午饭——虽然酒吧本意是晚间社交场所。除非这个小镇自发发展出了午间饮酒文化。物理规范理解失败宿舍浴室只能容纳一人但智能体不理解这个约束会在有人使用时闯入。商店5点关门但偶尔有智能体5点后还去购物。这些问题可以通过在环境描述中加入更明确的规范来缓解。指令微调的副作用底层语言模型的instruction tuning让智能体整体偏向礼貌和合作。Mei和丈夫John的对话过于正式和你聊天总是很愉快Isabella几乎不会拒绝别人的建议即使那些建议办莎士比亚朗读会、办职业社交活动和她的性格完全不搭。这些不是架构的根本缺陷而是底层模型的特性传导。随着语言模型的进步这些问题有望自然缓解。10. 从虚拟小镇到真实世界生成式智能体的未来版图这篇研究发表在UIST 2023——人机交互领域的顶级会议。它的意义远不止做了一个有趣的demo。把视野拉远来看Generative Agents提出的架构——记忆流反思规划——本质上是在回答一个根本性问题如何让AI从工具变成角色工具只需要在被调用时给出正确答案。角色需要持续存在、积累经验、形成观点、维护关系、做出前后一致的决策。这个架构的三个未来演化方向值得关注第一社会模拟与政策测试。如果你能用25个可信智能体模拟一个小镇那能不能用2500个模拟一个社区用25000个模拟一座城市在虚拟社会中测试政策干预的效果成本远低于真实实验。第二人机交互原型设计。不再需要招募真人用户来测试社交产品的早期原型——用生成式智能体模拟用户群体的动态交互快速迭代设计方案。第三游戏与虚拟世界。NPC不再是重复台词的木偶而是有记忆、有性格、会成长的居民。玩家的每一次互动都会被记住影响NPC未来的行为。图8图8这张架构全景图是理解整个系统的关键感知模块接收环境输入并存入记忆流检索模块根据当前情境提取相关记忆反思模块定期生成高层洞察规划模块基于记忆和反思制定行动方案。这四个模块形成闭环让智能体能够持续学习、适应和进化。如果说过去的AI智能体是执行指令的工具Generative Agents展示的是拥有生活的角色的第一块基石。它不完美但它证明了一件事当记忆、反思和规划三者结合AI不只是能回答问题——它能活出一段可信的人生。参考资料https://arxiv.org/pdf/2304.03442

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2592868.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！