论文解读:生成式智能体让25个AI小人自己组织了一场情人节派对

news2026/5/16 20:33:41
有没有想过一个AI能不能过日子不是回答你的问题不是帮你写代码不是在benchmark上刷分——而是真的像一个人那样早上起来刷牙出门前和家人聊两句路上碰到邻居寒暄几句选举八卦晚上因为暗恋某人而纠结要不要邀请对方参加派对。斯坦福和Google的一支团队真的做了这件事——他们造了一个像素风虚拟小镇放进去25个AI居民只给了一个种子指令Isabella想办一场情人节派对然后什么都没管。两天后派对真的办成了。有人传话、有人布置场地、有人约心仪对象一起去、有人因为太忙没来还给出了合理的理由。这不是脚本不是预编程是涌现。1. 为什么可信行为是智能体的终极难题让AI完成一个任务不难。让AI在一个开放世界里持续数天地表现出前后一致、符合人设、能被人类观察者认为可信的行为——这难得多。过去四十年游戏AI和认知科学社区一直在追求这个目标。从有限状态机到行为树从SOAR认知架构到强化学习每一代方案都在某个维度上取得了进展但没有一个真正解决了开放世界中的可信行为问题。有限状态机和行为树——也就是《模拟人生》和《质量效应》背后的技术——本质上是人工编写的剧本。你能覆盖多少种情况NPC就能表现多少种行为。但开放世界的交互空间是无限的穷举不可能。强化学习在对抗性游戏里表现惊艳——AlphaStar打星际、OpenAI Five打Dota2都是超人水平。但它们的成功依赖于明确可定义的奖励函数。表现得像个可信的人这件事你怎么定义奖励认知架构如SOAR、ACT-R试图从底层构建完整的认知功能但它们的行动空间仍然局限于手工编写的程序性知识无法自发产生新行为。三条路都没有真正触及核心问题如何让智能体基于不断增长的经验自主地产生前后一致的、可信的行为2. 大语言模型是答案吗不完全是大语言模型LLM从训练数据中编码了海量的人类行为模式。如果你给它一个足够具体的上下文它确实能生成看起来可信的行为。之前的工作已经证明了这一点——Social Simulacra用LLM生成社交平台上的虚拟用户Horton用LLM模拟经济学实验中的被试。但这些都是单点模拟——在某一个时刻给定当前情境生成一个合理的反应。问题出在时间维度上。如果你只是在每个时间步问LLM现在该做什么Klaus会在12点吃午饭12:30又吃午饭1点还在吃午饭。模型优化的是此刻的合理性牺牲的是跨时间的一致性。更关键的是一个智能体在两天的模拟中会积累数百条经验记录。这些记录远远超出了LLM的上下文窗口。你不能把所有记忆都塞进prompt——不仅放不下即使放下了模型也会被无关信息淹没给出泛泛而谈的回答。研究团队由斯坦福大学的Joon Sung Park、Percy Liang、Michael S. Bernstein以及Google Research的Carrie J. Cai和Google DeepMind的Meredith Ringel Morris共同组成。Percy Liang是斯坦福NLP组的核心人物长期深耕语言模型的能力评估与应用Michael Bernstein在人机交互领域有深厚积累是Social Simulacra的共同作者。这支队伍横跨HCI、NLP和AI系统三个方向几乎是做这件事的最佳组合。图1图1展示了25个AI居民在虚拟小镇中的生活场景——咖啡馆、公园、住宅区一应俱全每个小人头顶都有emoji表示当前行为能直观感受到这个实验的规模和真实感。3. 记忆流给AI装一个人生日记本Generative Agents架构的第一个核心组件叫Memory Stream记忆流——一个用自然语言记录智能体全部经历的长期记忆数据库。这就像给每个AI小人配了一本无限长的日记。每一条记忆对象包含三个要素自然语言描述、创建时间戳、最近访问时间戳。最基础的记忆单元是观察observation——智能体直接感知到的事件。比如Isabella Rodriguez正在摆放糕点、冰箱空了、Maria Lopez正在复习化学考试。但光有记忆不够关键是检索。当智能体需要决定下一步行动时系统不会把整本日记都翻出来而是用一个检索函数从记忆流中提取最相关的子集。这个检索函数由三个维度加权组合时近性Recency最近访问过的记忆得分更高。实现上是一个指数衰减函数衰减因子0.995以游戏小时为单位。翻译成人话——今天早上的事比上周的事更容易被想起来这符合人类记忆的规律。重要性Importance区分日常琐事和重大事件。直接让LLM对每条记忆打分1-10分。刷牙得2分向暗恋对象表白得8分。这个分数在记忆创建时就生成了。相关性Relevance与当前情境的关联度。用记忆文本的embedding向量和查询文本的embedding向量做余弦相似度计算。最终检索分数 α_recency × 时近性 α_importance × 重要性 α_relevance × 相关性。三个α都设为1取得分最高的记忆填入prompt。这意味着什么意味着当Isabella被问到你最近对什么有热情时系统不会给出一个泛泛的总结她关心活动策划和咖啡馆卫生而是精准地检索出她对情人节派对的热情、对让人们感到被欢迎的执着——因为这些记忆同时满足了时近、重要和相关三个条件。图2图2清晰展示了记忆检索的工作原理从海量记忆流中通过时近性、重要性和相关性三个维度的加权筛选出最相关的记忆子集传递给语言模型。左侧是完整的记忆流右侧是检索后的精简版本——这个过滤过程决定了智能体行为的质量。4. 反思从记住到理解只有原始观察记忆的智能体能记住事情但不能理解事情。考虑这个场景问Klaus Mueller如果你只能选一个人共度一小时你选谁如果只有观察记忆Klaus会选Wolfgang——因为他们见面次数最多。但实际上Wolfgang只是他的宿舍邻居两人只是路过打招呼从未深入交流。更合理的答案是Maria——因为Klaus花了大量时间做城市化研究Maria也在做自己的研究项目他们有共同的学术热情。但要得出这个结论智能体需要从Klaus每天在图书馆待8小时写论文这些零散观察中归纳出Klaus对研究充满热情这个高层推断。这就是反思Reflection机制的作用。反思是第二种记忆类型——更高层、更抽象的思考由智能体自己生成。它和普通观察一样存储在记忆流中参与检索。触发条件当最近感知事件的重要性分数之和超过阈值150系统触发一次反思。实际运行中每个智能体大约每天反思2-3次。反思的生成过程分两步第一步确定反思主题。系统把最近100条记忆喂给LLM问基于以上信息我们能回答的3个最重要的高层问题是什么模型可能输出Klaus Mueller对什么话题充满热情Klaus Mueller和Maria Lopez的关系是什么第二步生成洞察。用这些问题作为查询去检索相关记忆包括之前的反思然后让LLM提炼洞察并引用证据。比如Klaus Mueller对城市化研究非常投入基于记忆1、2、8、15。更关键的是反思可以基于其他反思再次反思——形成一棵反思树。叶节点是原始观察越往上越抽象。这让智能体能够从大量碎片化的日常经历中逐步构建出对自己和他人的深层理解。图3图3中Klaus Mueller的反思树是最好的例证底层是Klaus在写研究论文、Klaus在读城市化的书这些具体观察中层归纳出Klaus对城市化研究很投入顶层抽象为Klaus对研究高度专注。这种递归的抽象能力让智能体从记住事情进化到理解自己。5. 规划从此刻合理到全天连贯没有规划的智能体会反复吃午饭。有了规划Klaus的下午变成了12点在Hobbs Cafe边吃午饭边看书1点去图书馆写论文3点去公园散步休息。规划机制采用自顶向下的递归分解策略第一层生成全天粗略计划。系统把智能体的身份描述、前一天的活动摘要喂给LLM让它补全今天的计划大纲。输出通常是5-8个时间块1) 8点起床完成晨间流程2) 10点去Oak Hill College上课... 5) 1点到5点创作新音乐6) 5:30吃晚饭7) 11点前完成作业并睡觉。第二层将每个粗略块分解为小时级动作。1点到5点创作新音乐变成1:00 头脑风暴灵感... 4:00 短暂休息补充能量...第三层进一步分解为5-15分钟的细粒度动作。4:00 吃点水果或坚果4:05 在工作区周围短暂散步...这些计划存入记忆流参与后续检索。但计划不是死的——当智能体感知到新事件时系统会判断是否需要打断当前计划做出反应。比如John Lin看到儿子Eddy在花园散步。系统检索John关于Eddy的记忆Eddy在做音乐创作项目、Eddy喜欢散步时思考音乐然后判断John可能会主动搭话问问创作进展。如果决定反应系统会从反应时刻开始重新生成计划。对话生成也基于同样的记忆检索机制。John发起对话时系统用他对Eddy的记忆摘要来生成第一句话Eddy回应时系统用Eddy对John的记忆摘要和当前对话历史来生成回复。对话持续进行直到某一方决定结束。6. Smallville一个AI小镇的两天生活研究团队用Phaser游戏框架搭建了一个像素风的沙盒小镇Smallville。25个智能体在其中生活有咖啡馆、酒吧、公园、学校、宿舍、住宅和商店。环境被表示为树形数据结构——厨房是房子的子节点炉子是厨房的子节点。每个智能体初始化时只有一段自然语言描述作为种子记忆。比如John Lin的描述包括他是药店店员、和妻子Mei大学教授及儿子Eddy音乐专业学生住在一起、认识隔壁的老夫妇Sam和Jennifer Moore、和同事Tom Moreno是朋友并喜欢讨论地方政治。然后模拟开始运行。一个典型的早晨John 7点起床刷牙、洗澡、穿衣、吃早餐、看新闻。8点Eddy起床赶着去上课和John简短聊了几句音乐创作的进展。Eddy走后Mei起床问John儿子的情况John准确地复述了刚才和Eddy的对话内容。然后Mei去教书John去开药店。没有任何脚本。所有行为都是架构自主生成的。图4图4里John Lin的一个早晨被完整记录下来6点起床、7点刷牙洗澡、7:45吃早餐、8点和儿子Eddy聊天、8:30和妻子Mei交流、9点出门去药店。每个时间节点都标注了具体行为和地点展示了智能体如何将高层计划分解为细粒度动作并在真实环境中执行。7. 涌现的社会行为信息扩散、关系形成与群体协调最令人惊叹的不是个体行为而是群体层面的涌现现象。信息扩散模拟开始时只有Sam知道自己要竞选镇长只有Isabella知道自己要办情人节派对。两天后32%的智能体知道了Sam的竞选消息52%知道了派对的事——全部通过智能体之间的自然对话传播没有任何人工干预。研究团队逐一验证了每个知道的智能体确实在记忆流中有对应的对话记录不是幻觉。关系形成模拟开始时的社交网络密度是0.167两天后增长到0.74。智能体在公园偶遇、在咖啡馆搭话、在图书馆讨论研究——新关系就这样自然形成了。Sam在公园遇到了之前不认识的LatoyaLatoya提到自己在做摄影项目后来再次相遇时Sam主动问你的项目进展怎么样——他记住了。群体协调情人节派对的组织过程是最精彩的案例。Isabella在咖啡馆和其他地方遇到朋友和顾客时邀请他们13号下午她开始布置场地好友Maria来帮忙装饰Maria当晚邀请了自己暗恋的Klaus一起去Maria的人设里写了她暗恋Klaus14号下午5点5个智能体准时出现在Hobbs Cafe参加派对。12个被邀请的智能体中5个来了7个没来。没来的人中3个给出了合理的冲突理由比如画家Rajiv说我在准备画展没时间4个表示有兴趣但当天没有把它排进计划。这不是bug这是真实社交的样子。图5图5是情人节派对当天的场景截图Hobbs Cafe里聚集了5个智能体他们的头顶emoji显示着各自的社交状态。这张图记录了一个完全自发涌现的社交事件——从Isabella最初的想法到信息在社交网络中扩散再到最终的群体协调整个过程没有任何人工干预。图6图6这幅信息扩散路径图更是惊人从Isabella作为源头通过12条不同的传播路径派对邀请最终触达了13个智能体。每条边代表一次对话每个节点标注了智能体听说派对的具体时间。这张图可视化了信息如何在AI社交网络中自然流动——就像真实世界的口口相传。8. 消融实验每个组件都不可或缺研究团队设计了一个精巧的评估方案用自然语言采访智能体测试它们在自我认知、记忆、规划、反应和反思五个维度的表现。100名人类评估者对比了五种条件下的回答可信度完整架构观察反思规划无反思观察规划无反思无规划仅观察全部消融无记忆、无反思、无规划人类众包工人撰写的回答结果用TrueSkill评分系统量化完整架构得分29.89无反思26.88无反思无规划25.64人类众包22.95全部消融21.21。去掉反思 → 智能体无法做出需要深层综合的判断。Maria被问给Wolfgang买什么生日礼物时没有反思的她说不确定他喜欢什么有反思的她说他对数学音乐创作感兴趣可以买相关的书或软件。去掉规划 → 行为失去时间连贯性。去掉所有记忆 → 退化为纯LLM的单点生成表现甚至不如人类众包工人。完整架构与全部消融之间的效应量是Cohens d 8.16——八个标准差。这说明记忆、反思和规划三个组件的叠加效果不是锦上添花而是质变级别的提升。图7图7中TrueSkill评分的可视化结果一目了然完整架构蓝色显著高于所有消融版本甚至超过了人类众包工人的表现。每去掉一个组件性能就下降一个台阶。这张图用数据证明了一个简单的事实——记忆、反思、规划缺一不可。9. 局限与边界AI小人也会犯傻研究团队诚实地报告了三类典型错误空间决策退化随着智能体探索的地点越来越多选择行动地点变得困难。一些智能体学到了附近有个酒吧后开始去酒吧吃午饭——虽然酒吧本意是晚间社交场所。除非这个小镇自发发展出了午间饮酒文化。物理规范理解失败宿舍浴室只能容纳一人但智能体不理解这个约束会在有人使用时闯入。商店5点关门但偶尔有智能体5点后还去购物。这些问题可以通过在环境描述中加入更明确的规范来缓解。指令微调的副作用底层语言模型的instruction tuning让智能体整体偏向礼貌和合作。Mei和丈夫John的对话过于正式和你聊天总是很愉快Isabella几乎不会拒绝别人的建议即使那些建议办莎士比亚朗读会、办职业社交活动和她的性格完全不搭。这些不是架构的根本缺陷而是底层模型的特性传导。随着语言模型的进步这些问题有望自然缓解。10. 从虚拟小镇到真实世界生成式智能体的未来版图这篇研究发表在UIST 2023——人机交互领域的顶级会议。它的意义远不止做了一个有趣的demo。把视野拉远来看Generative Agents提出的架构——记忆流反思规划——本质上是在回答一个根本性问题如何让AI从工具变成角色工具只需要在被调用时给出正确答案。角色需要持续存在、积累经验、形成观点、维护关系、做出前后一致的决策。这个架构的三个未来演化方向值得关注第一社会模拟与政策测试。如果你能用25个可信智能体模拟一个小镇那能不能用2500个模拟一个社区用25000个模拟一座城市在虚拟社会中测试政策干预的效果成本远低于真实实验。第二人机交互原型设计。不再需要招募真人用户来测试社交产品的早期原型——用生成式智能体模拟用户群体的动态交互快速迭代设计方案。第三游戏与虚拟世界。NPC不再是重复台词的木偶而是有记忆、有性格、会成长的居民。玩家的每一次互动都会被记住影响NPC未来的行为。图8图8这张架构全景图是理解整个系统的关键感知模块接收环境输入并存入记忆流检索模块根据当前情境提取相关记忆反思模块定期生成高层洞察规划模块基于记忆和反思制定行动方案。这四个模块形成闭环让智能体能够持续学习、适应和进化。如果说过去的AI智能体是执行指令的工具Generative Agents展示的是拥有生活的角色的第一块基石。它不完美但它证明了一件事当记忆、反思和规划三者结合AI不只是能回答问题——它能活出一段可信的人生。参考资料https://arxiv.org/pdf/2304.03442

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2592868.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…