Openclaw一周烧掉我14亿Token后，我总结了这10条血泪教训

news2026/3/19 9:53:43

一开始我以为装个OpenClaw丢给它几个任务然后让它自己跑就完事了。演示视频里就是这么讲的。但前两周根本不是这么回事。前两周简直就是带娃——盯着它烧token看着它在同一个答案上循环八次看着Codex任务在那儿空转。我布置个任务走开一会儿回来发现它要么只做了一件事就罢工了要么陷入和自己关于用tab还是space的无限对话里。经过大量试错现在它终于能稳定运行真的在干正事了。从这玩意儿就是个玩具到我睡觉的时候它把功能都上线了这个差距是真实存在的。关键就在于你得停止把它当聊天机器人开始把它当基础设施来看待。openclaw 交流下面是真正起作用的东西。10个我想告诉每个今天刚开始的人的事。1. 模型路由决定一切别用Opus去跑心跳这是最关键的决策也是我14亿token主要烧在哪儿的原因。我把所有东西都往Opus或Codex上怼——心跳、定时检查、状态ping、普通聊天全都在用最贵的模型。这周开始Sonnet 4.6是日常使用的最佳选择。刚发布基本上有Opus级别的智商但只需要五分之一的成本。输入/输出每百万token只要$3/$15美元而Opus是15/75美元。它在OSWorld上得分72.5%几乎追平Opus 4.6的72.7%。性格也很好。这是我用过最适合做agent工作的模型质量够硬还不会让你大出血。如果Sonnet的价格对你的配置来说还是太贵那就降级到Kimi K2.5通过OpenRouter调用。大约$0.60/$2美元每百万token工具调用也很稳定。把Opus预算留到真正需要深度推理或长上下文作的时候。设置一个分层配置。好模型做主引擎处理日常任务强力模型做后备处理复杂工作。{ agents: { defaults: { model: { primary: anthropic/claude-sonnet-4-6, fallbacks: [ anthropic/claude-opus-4-6, openrouter/moonshotai/kimi-k2.5 ] } } } }你可以在聊天中用/model随时切换模型。需要Opus处理复杂任务切换。回到常规工作切回Sonnet。上面的配置会自动处理后备方案如果主模型碰到速率限制的话。2. 不写Skill文件你的agent就是个智障刚开箱的时候你的OpenClaw agent会做一些让人叹为观止的蠢事。在同一个失败的方法上循环六次。编辑它根本没资格碰的配置文件。跳过文档自己瞎编解决方案结果把整个项目搞崩。模型是聪明的agent行为不是。这是两回事。解决办法是Skill文件。这些文件放在你的workspace/skills/文件夹里告诉agent具体该怎么表现。把它们想象成防止你的agent越野脱缰的护栏。这是大多数人跳过的部分你得自己写这些规则。没人知道你的技术栈、你的偏好或者你的agent具体会以什么方式搞砸。你是在为一个能力很强但非常死板的员工写操作手册。没有它你就只能祈祷。让我错误率直接砍半的一条规则做任何改动之前先读文档。Agent喜欢即兴发挥它们会硬刚那些文档里早就有的优雅解决方案。我做了个叫DocClaw的Skill强制先读再做的工作流在任何代码改动前必须有个侦察阶段。已经在ClawHub上了。没有这些文件你的agent干完一件事就卡住了。没有后续没有迭代。只有一个昂贵的光标在凌晨3点等你告诉它该干嘛。3. Soul.md是你的大脑不是你的待办清单构建 → 测试 → 记录 → 决策 → 循环## 操作系统 ### 核心方法 - 把每个有意义的任务当作执行循环而不是一次性尝试。 - 优先验证结果而不是快速猜测。 - 保持决策透明确保进度可审计。 ### 规划纪律 - 任何非琐碎请求都从规划模式开始。 - 在实施前定义范围、约束条件和明确的完成标准。 - 如果事实改变或某一步失败暂停执行并重新规划。 ### 执行循环 - 重复构建 → 测试 → 记录 → 决策。 - 构建最小的有意义的改动。 - 立即针对预期行为进行测试。 - 把变更、通过/失败情况、下一步该做什么记录在progress-log.md里。 - 根据证据决定迭代、升级或关闭。 ### 任务管理 - 保持todo.md作为实时真相来源。 - 将工作分解为子任务持续更新状态。 - 发现后续任务时立即添加而不是留下隐性债务。 ### 学习循环 - 每次纠正后追加到tasks/lessons.md。 - 每条记录失败情况、根本原因、预防规则。 - 每次会话开始前回顾教训。 ### 质量关卡 - 没有证据绝不标记完成。 - 要求测试通过、日志干净且可理解、可观察的正确性。 - 最终检查一个资深工程师会批准这个作为生产就绪代码吗 ### 升级规则 - 缺少凭证、外部故障或需求模糊时立即升级。 - 同一问题上失败三次后停止并重新规划再继续。4. Todo.md 自动扩展的任务清单自扩展任务列表。睡前给agent一个大任务。它会分解成子任务工作时更新状态发现后续工作时生成新任务。午夜的一个任务到早上可能变成三四个。5. ProgressLog.md 你的晨间简报每轮构建-测试循环都要记录。它试了什么通过还是失败学到了什么。边喝咖啡边打开这个不用看会话记录就知道昨晚发生了什么。6. Cron job 长会话你不能布置个任务就合上笔记本。会话只有在开着的时候才有状态。窗口一关agent就全忘了。真正的后台工作需要定时任务按计划唤醒agent。我跑了三个定时任务凌晨2点、4点、6点。每个都会唤醒agent让它检查Todo.md里的剩余任务。有活就接着干干完了就写个总结然后继续睡觉。openclaw cron add --name overnight-2am --cron 0 2 * * * --message Check Todo.md. Pick up incomplete tasks. Log progress. openclaw cron add --name overnight-4am --cron 0 4 * * * --message Continue working through Todo.md. Update progress-log. openclaw cron add --name overnight-6am --cron 0 6 * * * --message Final check. Summarize all overnight work. openclaw cron list在这些定时任务之前agent会在任务中途卡住然后闲置几小时直到我注意到。定时任务就像闹钟。最坏情况下它闲置两小时就会被戳醒继续干活。7. 文件就是记忆长会话会被压缩。这意味着你的agent会悄悄丢失上下文。它之前做的决策、跟踪的状态、已经搞清楚的东西全没了。然后它从头开始重新推导一遍烧token做已经做过的工作有时候第二次还会得出不同结论。解决办法是把所有重要的东西都写到workspace的markdown文件里。想象一下就像给一个每天早上失忆的员工写入职文档。你写得越多它需要从头搞清楚的就越少。~/.openclaw/workspace/ ├── USER.md # 你是谁偏好上下文 ├── AGENTS.md # Agent身份和路由 ├── HEARTBEAT.md # 每次心跳要检查什么 ├── MEMORY.md # 长期事实 ├── Soul.md # 决策循环和行为 ├── Todo.md # 当前任务 └── progress-log.md # 运行日志8. 模型质量 ≠ Agent质量大部分挫败感不是来自OpenClaw而是来自那些不会调工具的模型。聊天质量和agent质量是完全不同的两件事。一个模型能写诗但在需要调用函数、解析结果、决定下一步做什么的时候可能直接卡死。我的日常配置Sonnet 4.6作为OpenClaw的日常主力。刚发布基本上是Opus级别的办公任务能力但只需要五分之一的价格。OSWorld上72.5%几乎追平Opus 4.6的72.7%。目前做agent工作性价比最高的模型。Opus 4.6留给需要严肃推理或长上下文的工作。100万token上下文窗口。最强大脑只是你不想让心跳任务跑在上面。GPT-5.3-Codex专门用来写代码。比5.2快25%在SWE-Bench Pro和Terminal-Bench 2.0上都是最顶尖的。我在Codex app/CLI里用它做开发工作和OpenClaw运维分开。Agent苦力活的预算模型Kimi K2.5通过OpenRouter或NVIDIA调用依然便宜得离谱。MiniMax M2.5是预算之王SWE-Bench上80.2%开源MIT协议输入每百万token只要0.30美元。GLM-5做重推理任务很稳。这三个工具调用都很可靠这才是agent工作最重要的。9. 一次只加一个新集成别试图一次性把邮件日历Telegram网页爬虫定时任务全配上。每个集成都是一个独立的故障点。每个渠道都是一个新的出错表面。我从一个简单的晨间简报定时任务开始。稳定跑了一周后才加下一个。然后再下一个。每个都搞稳了再往前走。出问题了就跑openclaw doctor --fix。专业提示一旦某个工作流稳定了让你的agent学习它。让它读Skill文件、定时任务配置、成功运行的日志。当它理解你这套配置的正常状态是什么样子后它会更擅长保持系统运行在问题级联之前发现它们。10. 分开你的Dev和Ops AgentCodex / Claude Code 做开发写代码、调试、上线功能。有时候Codex会卡住。换Claude。有时候反过来。不同工作用不同模型。都指向一个有干净git结构的私有GitHub仓库。Agent在组织良好的代码里很擅长识别模式。OpenClaw 做运维监控、调度、通信、自动化。定时任务、心跳、消息路由、任务管理。把开发和运维分开这样它们不会互相污染上下文。关于记忆系统的补充最好的agent是不会每次会话都从零开始的。OpenClaw有内置的向量记忆openclaw memory status和openclaw memory search。还有Claw Vault和Supermemory可以做更高级的设置。我自己在搭一个记忆系统Gigabrain目前已经索引了911条记忆。每次对话、每个决策、每个偏好都被存储并可搜索。Agent记得上次什么有效、什么坏了、我喜欢什么。这个上下文让一切都更快更可靠。关键洞察透明度和可审计性比单纯的回忆更重要。你得能看到agent知道关于你和项目的什么。否则你就是在信任一个有shell访问权限的黑盒子。关于安全的补充OpenClaw出过真实的安全事故。多个CVE包括一个CVSS 8.8的远程代码执行漏洞Bitsight和Censys的扫描团队发现了超过3万个暴露实例ClawHub还有大规模的供应链投毒活动。你的agent有shell访问权限、浏览器控制权还能以你的名义发消息。在循环里运行。不需要问你就执行。# 健康检查自动修复 openclaw doctor --deep --fix --yes # 安全审计 openclaw security audit # 自动修复安全问题 openclaw security audit --fix # 深度扫描JSON输出 openclaw security audit --deep --json # 完整状态 openclaw status --all --deep安全审计会标记暴露的网关认证、浏览器控制暴露、提升的允许列表、文件系统权限。光是ClawHavoc活动就在ClawHub上种植了1,184个恶意Skill当时占了整个注册表的约12%。这些可不是什么 subtle 的东西加密货币窃取器、反向shell、伪装成交易机器人和生产力工具的凭证外泄。CrowdStrike、Cisco和Kaspersky都发布了警告。最后你不是不擅长这个。这事儿现在就是很难。那些发我的agent一晚上做了个完整应用的人已经调了几周了。他们烧了token写了几十页规则调试了你正在经历的同样卡顿。对我有帮助的是接受这个事实——配置本身就是工作。写**就是产品工作。调整模型路由是基础设施工作。定时任务是运维工作。你不是在用一个工具你是在搭建一个系统。14亿token之后agent在我睡觉的时候真的在产出成果。配置就是护城河。大部分人在到达这里之前就放弃了。存好这篇。发给你的bot。等它在晚上自动产出成果的时候再回来看看。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2425986.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！