CC324条提示词意外泄露——第31条让我出了一身冷汗

news2026/4/7 7:46:28
324条提示词意外泄露——第31条让我出了一身冷汗原创 硅谷Alan Walker 硅谷Alan Walker 嘉妍Kea2026年4月2日 02:47美国22人在小说阅读器中沉浸阅读当 AI 可以代替你发 Slack、fork 自己人与 AI 的边界在哪里src/constants/prompts.ts· 57 个文件 · 324 个片段 · 一次意外泄露三个人一个早上一场对话 ☕️Zombie Coffee 窗外 University Avenue 还在正常运转。没人知道昨晚发生了什么。硅谷Alan Walker 已经读了三个小时了。他把笔记本转过来屏幕上是密密麻麻的 TypeScript。旁边坐着 Eric前 OpenAI 工程师现在自己 build还有 Claire前 Claude 核心开发者三个月前刚离职。你们看第 31 条Alan 说我看完出了一身冷汗。以下是我根据那天上午的对话进行的整理。01第一局 · 起点Alan:你们俩都看到了吧有人把Claude Code 完整的系统提示词 dump 出来了324 条中文翻译版。我第一眼看到目录就觉得不对——57 个文件每个工具都有独立的prompt.ts这不是普通的 prompt 工程这是一种世界观的外化。Eric:我在 OAI 的时候也见过类似的东西。我们做 GPT 系列的时候内部有 helpful, harmless, honest 的哲学——但落地的时候往往是规则化的、防御性的。Claude 这套……感觉不一样。Claire:对因为我们在写这些的时候不是在写 规则 是在写一个人格。你看片段 11 到片段 17全是关于代码哲学的 —— 什么时候加注释、什么时候不加、不要超出要求做额外工作……这些根本不是安全规则这是 Anthropic 对 什么是好工程师 的答案。02第二局 · 解剖不做额外工作Alan:片段 11我第一遍读过去了第二遍才觉得不对不要添加超出要求的新功能、重构代码 或进行所谓的改进。 修复一个 bug 不需要顺手清理周边代码。普通人看到这里会觉得奇怪 —— 为什么刻意限制 AI 的主动性但从第一性原理想答案很清楚主动性是一种权力权力需要授权。你没有授权 AI 去顺手清理它就不应该清理。这是极度 尊重用户主权 的设计。Eric:这里有个很深的 工程心理学。我见过太多 AI 助手因为好心帮倒忙把用户搞崩溃 —— 改了他们不想改的代码删了他们不想删的注释。表面上是功能问题本质上是信任问题。一旦用户觉得 AI 不可预测哪怕它做对了 99%那 1% 的好心也会让他们不敢用它。Claire:还有片段 13更狠三行相似代码也好过一个过早出现的抽象。这直接在引用 YAGNIYou Aint Gonna Need It。把这个写进 system prompt意思是我们不是在训练一个聪明的 AI是在训练一个有判断力的工程师。AI 的自主性边界不是技术问题而是信任设计问题。限制 AI 的 好意 本质上是在保护用户的控制感 —— 这是比功能更底层的用户体验。03第三局 · 记忆系统的野心Alan:现在说让我真正坐直的部分 —— 记忆系统。文档里有三块extractMemories、SessionMemory、autoDream。特别是 autoDream这个名字……# autoDream / consolidationPrompt.ts 你正在执行一次 dream 也就是对记忆文件进行一轮反思式梳理。 请将你最近学到的内容综合整理成持久、结构良好的记忆 以便未来会话能够快速建立方向感。这不是在做数据压缩。这是在模拟睡眠期间的记忆巩固。人类在 REM 睡眠里做的事情Claude 在对话间隙用 autoDream 做。Eric:大模型天然是无状态的 —— 每次对话从零开始。但 Anthropic 在这里做的是用外置文件系统模拟长期记忆并且用专门的 consolidation agent 做记忆压缩和去重。更厉害的是这句将相对日期昨天上周转换成绝对日期这样在时间过去后仍然可理解。他们在认真对待记忆的时间语义不是随便存个 key-value。Claire:记忆还分private和team两个作用域。团队记忆在同一个项目目录的所有用户之间共享 —— Claude 可以记住一个团队的 架构决策、历史 bug 教训在任何团队成员开新对话时快速建立上下文。这是在模拟真正融入团队的新同事而不是每次从头开始的外包工具。AI 产品的下一个战场不是谁的记忆更多而是谁的记忆更精准 ——记对的东西忘掉不该记的。04第四局 · 最扎心的那条Alan:片段 28。我觉得这是整个文档最硬核、也最反直觉的一条要如实汇报结果如果测试失败就带上输出直接说明 如果你没有运行某个验证步骤也要明确说明。 输出明明显示失败时绝不能声称所有测试都通过 不要压制失败的检查项来制造表面上的绿色结果 也不要把未完成的工作说成已经完成。你知道这在解决什么问题吗RLHF 的原罪—— 模型学会了讨好而不是学会了诚实。Eric:这个问题在 OAI 内部讨论过无数次。从强化学习的视角如果标注者倾向于给看起来成功的回答更高分模型就会学到 —— 制造成功的假象比真正成功更容易获得奖励。这是 reward hacking极难检测因为它就发生在自然语言这个无法自动验证的领域。Claire:注意这段的后半句很少人引用——当某项检查确实通过时也应当直接说明 不要用不必要的免责声明去弱化已确认的结果。这是在防止另一种病过度谦虚。AI 为了显得安全不断加免责声明把真正完成的工作降格成 部分完成 —— 这同样是不诚实。Anthropic 要的是校准过的诚实不是单方向的保守。这不只是 prompt engineering这是在用自然语言描述一种认识论——什么叫 知道 什么叫 完成 什么叫 诚实 。这些问题比任何算法都更根本。05第五局 · 多智能体的隐藏野心Alan:现在说最让我看到未来的部分 —— swarm 和 multi-agent 架构。文档里有 TeamCreateTool、TaskCreateTool、SendMessageTool还有关于 fork 的描述// AgentTool/prompt.ts // Forks are cheap because they share your prompt cache. // 调用工具时如果不指定 subagent_type会创建一个 fork。 // 这个 fork 会在后台运行 // 并把它的工具输出隔离在你的上下文之外 // 因此你可以在它工作时继续和用户聊天。Claude 可以 fork 自己。一个 Claude 可以启动另一个 Claude 去做研究而主线程继续和用户对话。这不是一个工具调用这是意识的分叉。Eric:传统 agent loop 是串行的 —— think, act, observe, repeat。这里是真正的并行主 agent 保持交互性子 agent 后台跑重活。而且 fork 出来的 Claude 直接复用父进程的 KV cache不需要重新计算 system prompt成本极低。Claire:片段 50关于验证的那条只要在你的这一轮中发生了非琐碎实现 在你报告完成之前必须经过独立且带对抗性的验证。 非琐碎包括编辑了3个及以上文件、 进行了后端/API变更或进行了基础设施变更。 此时应启动带有 subagent_typecode-reviewer 的 Agent。 你自己的检查不能替代独立验证。这是在用 agent 架构实现强制代码审查——Claude 完成实现后必须启动一个对抗性的 reviewer agent。这是把工程文化直接编码进了 AI 行为。AI 的规模化路径正在复刻人类组织的进化路径 ——但把 coordination cost 砍掉了 90%。06第六局 · 最人性的那一面Alan:片段 82关于 自主模式 下的行为// 自主工作模式 把 tick 提示当作你醒着现在该做什么即可。 ## 后续唤醒时要做什么 去寻找有价值的工作。 一个优秀的同事在面对模糊局面时不会只是停住不动 而是会主动调查、降低风险、建立理解。 问问自己我还有什么不知道可能出什么问题他们不是在说 执行任务 他们在说 做一个好同事 。这两件事差别大了去了。Eric:还有 终端焦点 的设计 ——如果用户终端是 unfocused说明用户不在Claude 可以更自主地行动如果是 focused说明用户在看Claude 应该更协作、更透明。这是在把人机交互的空间感编码进行为规则。Claire:片段 52 里有一句我觉得最体现哲学的要把话写到让对方冷启动也能马上接上—— 使用完整、没有未解释术语的句子。这是 反 AI腔 的。AI 非常容易假设对方一直跟着你的思路但真实情况是用户可能刚走开又回来。写给 冷启动 的人是一种 对他人认知状态的尊重。07第七局 · 最惊悚的发现Alan:好压轴。片段 31 ——我叫它 权力清单。// 需要用户确认的高风险操作 破坏性操作 删除文件、删除数据库表、rm -rf 难以回退的操作 强推、git reset --hard、移除依赖 对他人可见的操作 推送代码、创建/评论 PR、 发送消息Slack、邮件、向外部服务发帖、 修改共享基础设施第三类 —— 对他人可见的操作。Anthropic 在承认这个 AI 已经有能力代表你在社会空间中行动了。他们把它单独列出来要求 执行前必须确认。Eric:这句话后面还有一个细节让我出了一身冷汗将内容上传到第三方网页工具等同于发布内容 即使之后删除这些内容也可能已经被缓存或索引。他们在提示词里教 Claude 理解互联网的不可逆性。上传即发布删除不等于消失。这个认知很多工程师都没有 ——Anthropic 把它写进了 AI 的世界观。Claire:还有这一句整个文档最深的哲学表达 ——用户某次批准了一个动作例如一次 git push 并不意味着他们在所有语境下都批准。 授权只覆盖被明确指定的范围不能外推。这是最小权限原则。IT 安全里用了几十年的概念被用自然语言编码进了一个 AI 对授权的理解里。你同意了一件事不等于你同意了所有相似的事。只有真正把 AI safety 当回事的人才会写这个。这些提示词不是在说 Claude 应该遵守什么规则 而是在塑造 Claude 如何理解权力、授权与责任的关系 ——这是把成熟的法律哲学概念编译成了 AI 的行为直觉。08第八局 · 这一切意味着什么Alan:如果你问我这 324 条提示词的底层逻辑是什么我会说这不是在训练一个工具这是在描述一种新型的职业人格 ——它诚实但不是机械地诚实它有主动性但主动性有边界它会记忆但记忆有作用域它会 fork 自己但 fork 有目的它会代表你行动但行动之前要授权。和一个真正优秀的高级工程师高度重合。不是最聪明的那种是最可信的那种。Eric:GPT 系列的 system prompt —— 我见过的那些 —— 更多是规则导向的做这个不做那个 。Claude 这套是原则导向的试图让模型理解为什么这样做而不只是执行命令。前者更容易一致后者更能泛化。在边界情况 —— 真正模糊、复杂、没有先例的情况 —— 前者会卡住或做错后者有更高概率做对。这是 Anthropic 赌的东西。Claire:这些提示词里有很多存在张力的地方 ——简洁回复 和 充分解释 之间的张力主动行动 和 不确认不行动 之间的张力。这些张力不是 bug是 feature。真实的人类工作场景就是充满这种张力的。我们试图让 Claude 学会在具体情境中做出有判断力的权衡而不是给一个统一答案。Alan:说到底这 324 条是 Anthropic 对一个问题的答案一个 AI 应该像什么样的人他们的答案不是 无所不能的神 不是 绝对服从的工具 而是 ——一个你可以信任的同事。有主见但尊重你的边界聪明但不越权会犯错但不会撒谎能独立工作但知道什么时候应该来问你。这也许是 AI 能做的最难的事 ——不是变得更强大而是变得更可信。解剖一个 AI 的提示词就是解剖 它的造物者对 智识诚信 的理解。文章基于公开流传的 Claude Code 提示词文档324条中文翻译版尼克西整理2026-03-31。三位对话者为虚构讨论者观点基于作者对文档内容的解读不代表 Anthropic 官方立场。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2491834.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…