claw-code 源码分析:从「清单」到「运行时」——Harness 为什么必须先做 inventory 再做 I/O?

news2026/4/4 21:35:47
说明本文分析对象为开源仓库claw-codeREADME 中Rewriting Project Claw Code的 Python/Rust 移植工作区。1. 问题在问什么Inventory清单在 Harness 里指「系统承认存在的命令名、工具名及其元数据」的有穷集合——谁算内置、谁算插件、谁可被模型调用、各自职责与来源提示是什么。I/O输入输出指真正对外部世界产生副作用的行为——读盘、起进程、调网络 API、改用户仓库等。核心论点是在智能体系统里若没有一个稳定、可枚举、可过滤的清单就直接开放 I/O会把「命名空间」「路由」「权限」「审计」全部绑死在即兴逻辑上后期每一次加工具/加命令都会变成全库手术。claw-code 的 Python 移植层用快照 JSON → 内存元组 → 路由/注册表 →再模拟执行的链条把这一顺序写进了代码结构本身。2. 源码中的「清单层」长什么样2.1 数据源头reference_data快照命令与工具的权威枚举来自版本库内的 JSON而不是运行时再扫描磁盘猜名字src/reference_data/commands_snapshot.jsonsrc/reference_data/tools_snapshot.jsoncommands.py/tools.py在模块加载时读取 JSON解析为不可变元组PORTED_COMMANDS、PORTED_TOOLS并缓存lru_cache(maxsize1) def load_command_snapshot() - tuple[PortingModule, ...]: raw_entries json.loads(SNAPSHOT_PATH.read_text()) return tuple( PortingModule( nameentry[name], responsibilityentry[responsibility], source_hintentry[source_hint], statusmirrored, ) for entry in raw_entries ) PORTED_COMMANDS load_command_snapshot()lru_cache(maxsize1) def load_tool_snapshot() - tuple[PortingModule, ...]: raw_entries json.loads(SNAPSHOT_PATH.read_text()) return tuple( PortingModule( nameentry[name], responsibilityentry[responsibility], source_hintentry[source_hint], statusmirrored, ) for entry in raw_entries ) PORTED_TOOLS load_tool_snapshot()学习点清单与代码解耦——JSON 可 diff、可审计、可随 parity 演进Python 侧只消费「已镜像」条目避免运行时动态发现带来的不可重复性。2.2 在清单之上做「视图」过滤、简单模式、权限get_tools()不重新发明清单而是在PORTED_TOOLS上叠加策略simple mode、是否包含 MCP、权限上下文def get_tools( simple_mode: bool False, include_mcp: bool True, permission_context: ToolPermissionContext | None None, ) - tuple[PortingModule, ...]: tools list(PORTED_TOOLS) if simple_mode: tools [module for module in tools if module.name in {BashTool, FileReadTool, FileEditTool}] if not include_mcp: tools [module for module in tools if mcp not in module.name.lower() and mcp not in module.source_hint.lower()] return filter_tools_by_permission_context(tuple(tools), permission_context)tool_pool.py的assemble_tool_pool只是把上述「当前允许的子集」包装成报告对象——先有全集inventory再有池policy 下的视图def assemble_tool_pool( simple_mode: bool False, include_mcp: bool True, permission_context: ToolPermissionContext | None None, ) - ToolPool: return ToolPool( toolsget_tools(simple_modesimple_mode, include_mcpinclude_mcp, permission_contextpermission_context), simple_modesimple_mode, include_mcpinclude_mcp, )学习点权限与产品模式是清单上的过滤器不是散落在每个 I/O 调用点里的 if-else没有 inventory过滤器无处附着。2.3 命令「图」仍是清单的划分command_graph.py根据source_hint把同一批PORTED_COMMANDS分成 builtin / plugin-like / skill-like——拓扑来自元数据字段而不是执行时行为def build_command_graph() - CommandGraph: commands get_commands() builtins tuple(module for module in commands if plugin not in module.source_hint.lower() and skills not in module.source_hint.lower()) plugin_like tuple(module for module in commands if plugin in module.source_hint.lower()) skill_like tuple(module for module in commands if skills in module.source_hint.lower()) return CommandGraph(builtinsbuiltins, plugin_likeplugin_like, skill_likeskill_like)3. 「I/O 层」在本仓库里如何被刻意推迟3.1 执行入口execute_*首先是名字校验 描述性消息真正的危险 I/O 并未接在execute_tool上当前实现是mirrored shim只在清单里找到名字时返回「将会如何处理」的字符串def execute_tool(name: str, payload: str ) - ToolExecution: module get_tool(name) if module is None: return ToolExecution(namename, source_hint, payloadpayload, handledFalse, messagefUnknown mirrored tool: {name}) action fMirrored tool {module.name} from {module.source_hint} would handle payload {payload!r}. return ToolExecution(namemodule.name, source_hintmodule.source_hint, payloadpayload, handledTrue, messageaction)命令同理execute_command。学习点Harness 演进的标准节奏是——先让「调用约定」在清单内跑通名字、payload、返回结构再接真实后端若颠倒顺序调试时无法区分「路由错了」还是「I/O 错了」。3.2 注册表ExecutionRegistry完全由清单构造build_execution_registry()遍历PORTED_COMMANDS/PORTED_TOOLS生成可查找对象注册表容量 清单条目数def build_execution_registry() - ExecutionRegistry: return ExecutionRegistry( commandstuple(MirroredCommand(module.name, module.source_hint) for module in PORTED_COMMANDS), toolstuple(MirroredTool(module.name, module.source_hint) for module in PORTED_TOOLS), )运行时拿路由结果去 registry 里取执行器——没有 inventoryregistry 无法构建路由结果也无法落到稳定 handler。4.PortRuntime路由与清单的硬依赖PortRuntime.route_prompt的输入是用户prompt但匹配对象只能是PORTED_COMMANDS与PORTED_TOOLS中的模块它用 token 与name/source_hint/responsibility做打分产出有限条RoutedMatchclass PortRuntime: def route_prompt(self, prompt: str, limit: int 5) - list[RoutedMatch]: tokens {token.lower() for token in prompt.replace(/, ).replace(-, ).split() if token} by_kind { command: self._collect_matches(tokens, PORTED_COMMANDS, command), tool: self._collect_matches(tokens, PORTED_TOOLS, tool), } selected: list[RoutedMatch] [] for kind in (command, tool): if by_kind[kind]: selected.append(by_kind[kind].pop(0)) leftovers sorted( [match for matches in by_kind.values() for match in matches], keylambda item: (-item.score, item.kind, item.name), ) selected.extend(leftovers[: max(0, limit - len(selected))]) return selected[:limit]bootstrap_session的流程顺序非常清晰构建上下文与 setup环境自省QueryEnginePort.from_workspace()再拉 manifest / summary 相关状态history 记下commands{len(PORTED_COMMANDS)}, tools{len(PORTED_TOOLS)}——显式把清单规模当作会话元数据route_prompt→build_execution_registry()→ 仅对匹配到的名字执行 shim再把matched_commands/matched_tools/ 推断的denials交给QueryEnginePort的submit_message/stream_submit_messagedef bootstrap_session(self, prompt: str, limit: int 5) - RuntimeSession: context build_port_context() setup_report run_setup(trustedTrue) setup setup_report.setup history HistoryLog() engine QueryEnginePort.from_workspace() history.add(context, fpython_files{context.python_file_count}, archive_available{context.archive_available}) history.add(registry, fcommands{len(PORTED_COMMANDS)}, tools{len(PORTED_TOOLS)}) matches self.route_prompt(prompt, limitlimit) registry build_execution_registry() command_execs tuple(registry.command(match.name).execute(prompt) for match in matches if match.kind command and registry.command(match.name)) tool_execs tuple(registry.tool(match.name).execute(prompt) for match in matches if match.kind tool and registry.tool(match.name)) denials tuple(self._infer_permission_denials(matches)) stream_events tuple(engine.stream_submit_message( prompt, matched_commandstuple(match.name for match in matches if match.kind command), matched_toolstuple(match.name for match in matches if match.kind tool), denied_toolsdenials, )) turn_result engine.submit_message( prompt, matched_commandstuple(match.name for match in matches if match.kind command), matched_toolstuple(match.name for match in matches if match.kind tool), denied_toolsdenials, )学习点路由routing是定义在有穷 inventory 上的搜索问题I/O 只应作用于路由后的已解析符号。若先写 I/O常见反模式是「字符串里猜路径」「正则提取 shell 片段」——不可枚举、不可审计。权限拒绝示例_infer_permission_denials同样建立在已匹配的工具名上例如 bash 类工具说明deny-list / gate 需要名字语义而名字来自清单。5.QueryEnginePort会话与预算——仍以「匹配集合」为输入submit_message并不自己去「发现」工具它接收调用方已经算好的matched_commands、matched_tools与denied_tools再写入摘要、用量、转写与压缩策略summary_lines [ fPrompt: {prompt}, fMatched commands: {, .join(matched_commands) if matched_commands else none}, fMatched tools: {, .join(matched_tools) if matched_tools else none}, fPermission denials: {len(denied_tools)}, ] output self._format_output(summary_lines) projected_usage self.total_usage.add_turn(prompt, output) stop_reason completed if projected_usage.input_tokens projected_usage.output_tokens self.config.max_budget_tokens: stop_reason max_budget_reached self.mutable_messages.append(prompt) self.transcript_store.append(prompt) self.permission_denials.extend(denied_tools) self.total_usage projected_usage self.compact_messages_if_needed() return TurnResult( promptprompt, outputoutput, matched_commandsmatched_commands, matched_toolsmatched_tools, permission_denialsdenied_tools, usageself.total_usage, stop_reasonstop_reason, )render_summary()再次聚合manifest command/tool backlog仍来自清单说明「给用户/维护者看的系统面」与 inventory 同源。6. Bootstrap 阶段叙事bootstrap_graph把顺序写死build_bootstrap_graph()用字符串阶段描述了整个启动链其中「setup commands/agents 并行加载」在「query engine submit loop」之前def build_bootstrap_graph() - BootstrapGraph: return BootstrapGraph( stages( top-level prefetch side effects, warning handler and environment guards, CLI parser and pre-action trust gate, setup() commands/agents parallel load, deferred init after trust, mode routing: local / remote / ssh / teleport / direct-connect / deep-link, query engine submit loop, ) )这与前文代码一致先加载/信任/模式再进入 submit loop。在更完整的产品里「agents parallel load」就是 inventory policy 的装配没有这一步query loop 没有稳定工具面可展示给模型或用户。7. Parity Audit清单是「可度量一致性」的锚parity_audit.py将归档侧与当前 Python 树的根文件、目录、命令条目、工具条目做比例统计——命令/工具覆盖率直接绑定commands_snapshot/tools_snapshot与归档dataclass(frozenTrue) class ParityAuditResult: archive_present: bool root_file_coverage: tuple[int, int] directory_coverage: tuple[int, int] total_file_ratio: tuple[int, int] command_entry_ratio: tuple[int, int] tool_entry_ratio: tuple[int, int] missing_root_targets: tuple[str, ...] missing_directory_targets: tuple[str, ...]学习点没有 inventory就没有「条目覆盖率」这种工程指标移植进度会沦为感受而不是数据。8. 结论为什么必须先 inventory 再 I/O结合本仓库维度若先做 I/O先做 inventory本仓库做法命名空间任意字符串都可能触发副作用仅PORTED_*内名字可进入执行链路由难以定义「匹配到什么算合法工具」route_prompt在固定模块集合上打分权限权限逻辑散落在具体 syscallToolPermissionContext、denial 推断附着在模块名与元数据审计/回放日志与真实能力面脱节history / TurnResult 记录「匹配了哪些已登记符号」移植无法做 parity 与 snapshot diffJSON 快照 audit 量化进度演进每加一个工具改多处增删 JSON 条目 → 注册表与路由自动继承claw-code 当前用mirrored shim把真实 I/O 推到清单与路由之后是这一原则的极端清晰演示先把「系统承认什么」钉死再谈「能对世界做什么」。9. 建议阅读顺序动手src/reference_data/commands_snapshot.json、tools_snapshot.json— 感受清单体量与字段。src/commands.py、src/tools.py— 加载、过滤、execute shim。src/execution_registry.py、src/runtime.py— 注册表与bootstrap_session顺序。src/query_engine.py—submit_message如何把「已匹配集合」纳入会话与用量。src/parity_audit.py— 清单与归档的量化对照。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2483529.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…