CC324条提示词意外泄露——第31条让我出了一身冷汗

news2026/4/7 7:46:28

324条提示词意外泄露——第31条让我出了一身冷汗原创硅谷Alan Walker 硅谷Alan Walker 嘉妍Kea2026年4月2日 02:47美国22人在小说阅读器中沉浸阅读当 AI 可以代替你发 Slack、fork 自己人与 AI 的边界在哪里src/constants/prompts.ts· 57 个文件 · 324 个片段 · 一次意外泄露三个人一个早上一场对话 ☕️Zombie Coffee 窗外 University Avenue 还在正常运转。没人知道昨晚发生了什么。硅谷Alan Walker 已经读了三个小时了。他把笔记本转过来屏幕上是密密麻麻的 TypeScript。旁边坐着 Eric前 OpenAI 工程师现在自己 build还有 Claire前 Claude 核心开发者三个月前刚离职。你们看第 31 条Alan 说我看完出了一身冷汗。以下是我根据那天上午的对话进行的整理。01第一局 · 起点Alan:你们俩都看到了吧有人把Claude Code 完整的系统提示词 dump 出来了324 条中文翻译版。我第一眼看到目录就觉得不对——57 个文件每个工具都有独立的prompt.ts这不是普通的 prompt 工程这是一种世界观的外化。Eric:我在 OAI 的时候也见过类似的东西。我们做 GPT 系列的时候内部有 helpful, harmless, honest 的哲学——但落地的时候往往是规则化的、防御性的。Claude 这套……感觉不一样。Claire:对因为我们在写这些的时候不是在写规则是在写一个人格。你看片段 11 到片段 17全是关于代码哲学的 —— 什么时候加注释、什么时候不加、不要超出要求做额外工作……这些根本不是安全规则这是 Anthropic 对什么是好工程师的答案。02第二局 · 解剖不做额外工作Alan:片段 11我第一遍读过去了第二遍才觉得不对不要添加超出要求的新功能、重构代码或进行所谓的改进。修复一个 bug 不需要顺手清理周边代码。普通人看到这里会觉得奇怪 —— 为什么刻意限制 AI 的主动性但从第一性原理想答案很清楚主动性是一种权力权力需要授权。你没有授权 AI 去顺手清理它就不应该清理。这是极度尊重用户主权的设计。Eric:这里有个很深的工程心理学。我见过太多 AI 助手因为好心帮倒忙把用户搞崩溃 —— 改了他们不想改的代码删了他们不想删的注释。表面上是功能问题本质上是信任问题。一旦用户觉得 AI 不可预测哪怕它做对了 99%那 1% 的好心也会让他们不敢用它。Claire:还有片段 13更狠三行相似代码也好过一个过早出现的抽象。这直接在引用 YAGNIYou Aint Gonna Need It。把这个写进 system prompt意思是我们不是在训练一个聪明的 AI是在训练一个有判断力的工程师。AI 的自主性边界不是技术问题而是信任设计问题。限制 AI 的好意本质上是在保护用户的控制感 —— 这是比功能更底层的用户体验。03第三局 · 记忆系统的野心Alan:现在说让我真正坐直的部分 —— 记忆系统。文档里有三块extractMemories、SessionMemory、autoDream。特别是 autoDream这个名字……# autoDream / consolidationPrompt.ts 你正在执行一次 dream 也就是对记忆文件进行一轮反思式梳理。请将你最近学到的内容综合整理成持久、结构良好的记忆以便未来会话能够快速建立方向感。这不是在做数据压缩。这是在模拟睡眠期间的记忆巩固。人类在 REM 睡眠里做的事情Claude 在对话间隙用 autoDream 做。Eric:大模型天然是无状态的 —— 每次对话从零开始。但 Anthropic 在这里做的是用外置文件系统模拟长期记忆并且用专门的 consolidation agent 做记忆压缩和去重。更厉害的是这句将相对日期昨天上周转换成绝对日期这样在时间过去后仍然可理解。他们在认真对待记忆的时间语义不是随便存个 key-value。Claire:记忆还分private和team两个作用域。团队记忆在同一个项目目录的所有用户之间共享 —— Claude 可以记住一个团队的架构决策、历史 bug 教训在任何团队成员开新对话时快速建立上下文。这是在模拟真正融入团队的新同事而不是每次从头开始的外包工具。AI 产品的下一个战场不是谁的记忆更多而是谁的记忆更精准 ——记对的东西忘掉不该记的。04第四局 · 最扎心的那条Alan:片段 28。我觉得这是整个文档最硬核、也最反直觉的一条要如实汇报结果如果测试失败就带上输出直接说明如果你没有运行某个验证步骤也要明确说明。输出明明显示失败时绝不能声称所有测试都通过不要压制失败的检查项来制造表面上的绿色结果也不要把未完成的工作说成已经完成。你知道这在解决什么问题吗RLHF 的原罪—— 模型学会了讨好而不是学会了诚实。Eric:这个问题在 OAI 内部讨论过无数次。从强化学习的视角如果标注者倾向于给看起来成功的回答更高分模型就会学到 —— 制造成功的假象比真正成功更容易获得奖励。这是 reward hacking极难检测因为它就发生在自然语言这个无法自动验证的领域。Claire:注意这段的后半句很少人引用——当某项检查确实通过时也应当直接说明不要用不必要的免责声明去弱化已确认的结果。这是在防止另一种病过度谦虚。AI 为了显得安全不断加免责声明把真正完成的工作降格成部分完成 —— 这同样是不诚实。Anthropic 要的是校准过的诚实不是单方向的保守。这不只是 prompt engineering这是在用自然语言描述一种认识论——什么叫知道什么叫完成什么叫诚实。这些问题比任何算法都更根本。05第五局 · 多智能体的隐藏野心Alan:现在说最让我看到未来的部分 —— swarm 和 multi-agent 架构。文档里有 TeamCreateTool、TaskCreateTool、SendMessageTool还有关于 fork 的描述// AgentTool/prompt.ts // Forks are cheap because they share your prompt cache. // 调用工具时如果不指定 subagent_type会创建一个 fork。 // 这个 fork 会在后台运行 // 并把它的工具输出隔离在你的上下文之外 // 因此你可以在它工作时继续和用户聊天。Claude 可以 fork 自己。一个 Claude 可以启动另一个 Claude 去做研究而主线程继续和用户对话。这不是一个工具调用这是意识的分叉。Eric:传统 agent loop 是串行的 —— think, act, observe, repeat。这里是真正的并行主 agent 保持交互性子 agent 后台跑重活。而且 fork 出来的 Claude 直接复用父进程的 KV cache不需要重新计算 system prompt成本极低。Claire:片段 50关于验证的那条只要在你的这一轮中发生了非琐碎实现在你报告完成之前必须经过独立且带对抗性的验证。非琐碎包括编辑了3个及以上文件、进行了后端/API变更或进行了基础设施变更。此时应启动带有 subagent_typecode-reviewer 的 Agent。你自己的检查不能替代独立验证。这是在用 agent 架构实现强制代码审查——Claude 完成实现后必须启动一个对抗性的 reviewer agent。这是把工程文化直接编码进了 AI 行为。AI 的规模化路径正在复刻人类组织的进化路径 ——但把 coordination cost 砍掉了 90%。06第六局 · 最人性的那一面Alan:片段 82关于自主模式下的行为// 自主工作模式把 tick 提示当作你醒着现在该做什么即可。 ## 后续唤醒时要做什么去寻找有价值的工作。一个优秀的同事在面对模糊局面时不会只是停住不动而是会主动调查、降低风险、建立理解。问问自己我还有什么不知道可能出什么问题他们不是在说执行任务他们在说做一个好同事。这两件事差别大了去了。Eric:还有终端焦点的设计 ——如果用户终端是 unfocused说明用户不在Claude 可以更自主地行动如果是 focused说明用户在看Claude 应该更协作、更透明。这是在把人机交互的空间感编码进行为规则。Claire:片段 52 里有一句我觉得最体现哲学的要把话写到让对方冷启动也能马上接上—— 使用完整、没有未解释术语的句子。这是反 AI腔的。AI 非常容易假设对方一直跟着你的思路但真实情况是用户可能刚走开又回来。写给冷启动的人是一种对他人认知状态的尊重。07第七局 · 最惊悚的发现Alan:好压轴。片段 31 ——我叫它权力清单。// 需要用户确认的高风险操作破坏性操作删除文件、删除数据库表、rm -rf 难以回退的操作强推、git reset --hard、移除依赖对他人可见的操作推送代码、创建/评论 PR、发送消息Slack、邮件、向外部服务发帖、修改共享基础设施第三类 —— 对他人可见的操作。Anthropic 在承认这个 AI 已经有能力代表你在社会空间中行动了。他们把它单独列出来要求执行前必须确认。Eric:这句话后面还有一个细节让我出了一身冷汗将内容上传到第三方网页工具等同于发布内容即使之后删除这些内容也可能已经被缓存或索引。他们在提示词里教 Claude 理解互联网的不可逆性。上传即发布删除不等于消失。这个认知很多工程师都没有 ——Anthropic 把它写进了 AI 的世界观。Claire:还有这一句整个文档最深的哲学表达 ——用户某次批准了一个动作例如一次 git push 并不意味着他们在所有语境下都批准。授权只覆盖被明确指定的范围不能外推。这是最小权限原则。IT 安全里用了几十年的概念被用自然语言编码进了一个 AI 对授权的理解里。你同意了一件事不等于你同意了所有相似的事。只有真正把 AI safety 当回事的人才会写这个。这些提示词不是在说 Claude 应该遵守什么规则而是在塑造 Claude 如何理解权力、授权与责任的关系 ——这是把成熟的法律哲学概念编译成了 AI 的行为直觉。08第八局 · 这一切意味着什么Alan:如果你问我这 324 条提示词的底层逻辑是什么我会说这不是在训练一个工具这是在描述一种新型的职业人格 ——它诚实但不是机械地诚实它有主动性但主动性有边界它会记忆但记忆有作用域它会 fork 自己但 fork 有目的它会代表你行动但行动之前要授权。和一个真正优秀的高级工程师高度重合。不是最聪明的那种是最可信的那种。Eric:GPT 系列的 system prompt —— 我见过的那些 —— 更多是规则导向的做这个不做那个。Claude 这套是原则导向的试图让模型理解为什么这样做而不只是执行命令。前者更容易一致后者更能泛化。在边界情况 —— 真正模糊、复杂、没有先例的情况 —— 前者会卡住或做错后者有更高概率做对。这是 Anthropic 赌的东西。Claire:这些提示词里有很多存在张力的地方 ——简洁回复和充分解释之间的张力主动行动和不确认不行动之间的张力。这些张力不是 bug是 feature。真实的人类工作场景就是充满这种张力的。我们试图让 Claude 学会在具体情境中做出有判断力的权衡而不是给一个统一答案。Alan:说到底这 324 条是 Anthropic 对一个问题的答案一个 AI 应该像什么样的人他们的答案不是无所不能的神不是绝对服从的工具而是 ——一个你可以信任的同事。有主见但尊重你的边界聪明但不越权会犯错但不会撒谎能独立工作但知道什么时候应该来问你。这也许是 AI 能做的最难的事 ——不是变得更强大而是变得更可信。解剖一个 AI 的提示词就是解剖它的造物者对智识诚信的理解。文章基于公开流传的 Claude Code 提示词文档324条中文翻译版尼克西整理2026-03-31。三位对话者为虚构讨论者观点基于作者对文档内容的解读不代表 Anthropic 官方立场。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2491834.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！