Code-Act框架：让AI通过代码生成与执行实现智能体“动手”能力

news2026/5/16 12:24:50

1. 项目概述Code-Act一个让AI“动手”的智能体框架最近在AI智能体这个圈子里一个叫“Code-Act”的项目热度挺高。它不是一个具体的应用而是一个框架一个旨在解决当前AI智能体“眼高手低”问题的底层工具。简单来说Code-Act的核心目标是让大语言模型LLM驱动的智能体不仅能“想”更能“做”——通过生成和执行代码来操作计算机环境完成真实世界的任务。想象一下你给AI一个指令“帮我把桌面上的所有截图整理到一个叫‘截图归档’的文件夹里并按日期创建子文件夹。” 一个传统的聊天机器人可能会回复你一个操作步骤列表。但一个基于Code-Act构建的智能体会直接生成一段Python脚本调用操作系统的文件系统接口自动完成所有文件的扫描、分类、移动和重命名。这就是“代码即行动”的直观体现。这个项目之所以吸引我是因为它直击了智能体落地的痛点如何将LLM强大的理解和规划能力无缝、安全、可靠地转化为对数字世界的具体操作。它不是为了替代程序员而是为AI赋予了一种更通用、更精确的“动手能力”。这个框架适合谁呢首先是AI智能体的研究者和开发者。如果你正在构建需要与环境交互的智能体比如自动化办公助手、软件测试机器人、数据分析流水线调度器Code-Act提供了一个标准化的“行动”接口和评估基准。其次是希望将AI能力深度集成到现有工作流中的工程师。通过Code-Act你可以将复杂的、需要多步骤操作的任务封装成一个简单的自然语言指令。最后对于AI爱好者而言这也是一个绝佳的观察窗口可以直观地看到当前最前沿的模型如GPT-4、Claude-3在代码生成与执行任务上的实际能力边界。2. 核心设计理念与架构拆解Code-Act这个名字本身就揭示了它的设计哲学Code as Action即“代码即行动”。这背后是对智能体行动范式的一次重要抽象和统一。2.1 为什么是“代码”在智能体与环境的交互中行动Action可以有多种形式调用一个预设的API函数、发送一个键盘鼠标指令、在图形界面上点击一个按钮。但这些方式都存在局限性。API需要预先定义扩展性差模拟键鼠操作脆弱且依赖特定UI。而代码作为一种通用、精确、可组合的指令集具有独特的优势表达能力强几乎任何复杂的逻辑和操作都可以通过代码尤其是Python来描述。环境通用只要目标环境支持某种语言的解释器如Python、JavaScript代码就能运行无需为每个环境定制专用的行动接口。可验证与可调试生成的代码可以被静态分析检查语法、安全、动态执行并观察结果这为评估智能体的“行动”质量提供了客观标准。易于学习LLM在代码数据上进行了海量训练它们非常擅长生成和解释代码。让LLM写代码来完成任务比让它直接输出一串晦涩的底层操作指令要自然得多。因此Code-Act选择将“生成一段代码”作为智能体的核心行动。智能体观察环境例如当前的屏幕信息、文件列表、应用程序状态思考任务然后输出一段旨在改变环境的代码。一个独立的“执行器”模块会安全地运行这段代码并将结果成功、失败、输出内容返回给智能体作为下一轮观察和决策的依据。2.2 核心架构组件一个典型的基于Code-Act的智能体系统包含以下几个关键部分我们可以将其类比为一个“数字机器人”的感官、大脑和手脚环境Environment这是智能体操作的对象可以是一个虚拟的桌面环境、一个浏览器会话、一个命令行终端或者一个特定的软件如IDE、Excel。环境需要提供状态观察接口如截图、当前目录列表、活动窗口标题和代码执行沙箱。智能体Agent其核心是一个LLM如GPT-4。它的输入是任务描述、环境观察历史、以及之前行动代码的执行结果。它的输出是一段代码行动有时还会附带一段解释推理过程。代码执行器Code Executor这是安全性的关键。它运行智能体生成的代码但必须在一个受控的“沙箱”中。这个沙箱会限制危险操作如删除系统文件、访问网络并捕获代码的标准输出、错误信息以及执行后的环境状态变化。评估与基准测试套件Benchmark这是Code-Act项目的一大贡献。它定义了一系列真实世界任务如“在文本编辑器中新建文件并写入特定内容”、“从网页表格中提取数据到CSV”并为每个任务提供了清晰的完成标准。这允许研究者客观地比较不同LLM或不同提示策略下智能体的性能。这种架构的优势在于解耦。智能体模型可以独立升级从GPT-3.5到GPT-4环境可以更换从模拟桌面到真实远程桌面而核心的“代码-行动”循环保持不变。这极大地提高了框架的灵活性和可扩展性。注意安全性是Code-Act设计的重中之重。在真实部署中代码执行器必须运行在高度隔离的容器或虚拟机中并且要有严格的权限控制和操作审计。绝不能允许未经审查的AI代码在具有重要数据或权限的生产环境中直接运行。3. 实操演练构建一个简易的文件管理智能体理论讲得再多不如亲手实现一个。下面我将带你一步步构建一个运行在本地的、简易版的Code-Act智能体用于完成基本的文件管理任务。我们将使用Python作为主要语言并假设你具备基础的Python编程知识。3.1 环境准备与依赖安装首先我们需要创建一个干净的Python虚拟环境并安装核心依赖。这里我们使用openai库来调用GPT模型你也可以替换为其他兼容OpenAI API的模型服务以及一些用于系统交互的库。# 创建并激活虚拟环境 python -m venv code_act_env source code_act_env/bin/activate # Linux/macOS # 或 code_act_env\Scripts\activate # Windows # 安装核心库 pip install openai python-dotenv接下来你需要准备一个OpenAI API密钥。如果你没有需要去OpenAI官网注册获取。为了安全我们将密钥存储在环境变量中。创建一个名为.env的文件内容如下OPENAI_API_KEY你的_api_key_here然后创建一个simple_code_act.py文件开始编写我们的智能体。3.2 核心智能体循环实现智能体的核心是一个循环观察 - 思考生成代码- 行动执行代码- 观察结果 - 判断是否完成。我们先来实现这个循环的骨架。import os import subprocess import sys from typing import Dict, Any import openai from dotenv import load_dotenv # 加载环境变量 load_dotenv() openai.api_key os.getenv(OPENAI_API_KEY) class SimpleCodeActAgent: def __init__(self, modelgpt-4): self.model model self.conversation_history [] # 保存对话和观察历史 def observe_environment(self, task_description: str) - str: 模拟环境观察。在实际项目中这里可能会返回屏幕截图描述、文件列表等。我们这里简化返回当前工作目录的文件列表作为初始观察。 try: # 获取当前目录列表 result subprocess.run([ls, -la], capture_outputTrue, textTrue, shellFalse) current_dir_listing result.stdout except Exception as e: current_dir_listing fError observing directory: {e} observation f 任务描述{task_description} 当前环境观察工作目录 {current_dir_listing} return observation def think_and_generate_code(self, observation: str) - str: 调用LLM基于观察生成下一步要执行的代码。我们设计一个特定的提示词Prompt来引导模型。 system_prompt 你是一个帮助用户操作计算机文件的智能助手。你的行动方式是生成一段Python代码来完成任务。生成的代码必须 1. 只使用Python标准库如os, shutil, pathlib, datetime等。 2. 绝对不要执行任何危险操作如os.system(rm -rf /)。 3. 代码应该是一个完整的、可独立运行的代码块。 4. 代码的目标是改变文件系统状态以逐步接近任务目标。 5. 在代码最后打印出关键的操作结果。请根据用户提供的任务描述和当前环境观察生成合适的Python代码。只输出代码不要输出任何其他解释。 user_prompt f{observation}\n\n请生成完成上述任务的Python代码 try: response openai.ChatCompletion.create( modelself.model, messages[ {role: system, content: system_prompt}, {role: user, content: user_prompt} ], temperature0.2, # 低温度让输出更确定、更偏向代码 max_tokens1500 ) generated_code response.choices[0].message.content.strip() # 清理可能出现的markdown代码块标记 if generated_code.startswith(python): generated_code generated_code[9:] if generated_code.startswith(): generated_code generated_code[3:] if generated_code.endswith(): generated_code generated_code[:-3] return generated_code.strip() except Exception as e: print(f调用LLM生成代码失败: {e}) return def execute_code(self, code: str) - Dict[str, Any]: 在一个相对安全的环境中执行生成的代码。注意这只是一个简易演示不具备真正的沙箱安全性生产环境必须使用Docker容器或更严格的隔离机制。 result {success: False, output: , error: } # 创建一个临时文件来存放代码 import tempfile with tempfile.NamedTemporaryFile(modew, suffix.py, deleteFalse) as f: f.write(code) temp_file_path f.name try: # 在新进程中执行代码并捕获输出 process subprocess.run( [sys.executable, temp_file_path], capture_outputTrue, textTrue, timeout30, # 设置超时防止无限循环 cwdos.getcwd() # 在当前工作目录执行 ) result[output] process.stdout if process.stderr: result[error] process.stderr result[success] (process.returncode 0) except subprocess.TimeoutExpired: result[error] 代码执行超时超过30秒。 except Exception as e: result[error] f执行过程异常: {e} finally: # 清理临时文件 os.unlink(temp_file_path) return result def run(self, task: str, max_steps5): 运行智能体主循环 print(f开始执行任务: {task}) current_observation self.observe_environment(task) print(f初始观察:\n{current_observation[:500]}...) # 打印部分观察 for step in range(max_steps): print(f\n--- 第 {step1} 步 ---) # 生成代码 code self.think_and_generate_code(current_observation) if not code: print(未能生成有效代码终止。) break print(f生成的代码:\npython\n{code}\n) # 执行代码 execution_result self.execute_code(code) print(f执行结果 - 成功: {execution_result[success]}) if execution_result[output]: print(f输出:\n{execution_result[output]}) if execution_result[error]: print(f错误:\n{execution_result[error]}) # 构建新的观察简化版将执行结果作为新观察的一部分 new_observation f 上一步执行结果成功{execution_result[success]} 输出{execution_result[output]} 错误{execution_result[error]} 当前环境观察工作目录 {subprocess.run([ls, -la], capture_outputTrue, textTrue).stdout} 原始任务描述{task} current_observation new_observation # 简单判断任务是否可能完成例如检查输出中是否有成功完成的信号 # 这里只是一个示例真实判断需要更复杂的逻辑或由LLM判断。 if 任务完成 in execution_result[output] or step max_steps - 1: print(f\n任务循环结束达到最大步数或检测到完成信号。) break if __name__ __main__: agent SimpleCodeActAgent(modelgpt-4) # 可根据情况使用gpt-3.5-turbo # 尝试一个简单任务 task 在当前目录下创建一个名为‘test_archive’的文件夹然后列出目录内容确认。 agent.run(task)这个简易实现包含了Code-Act的核心循环。observe_environment模拟了环境观察这里只是目录列表think_and_generate_code调用GPT-4生成代码execute_code则尝试运行生成的代码并捕获结果。3.3 提示词工程与代码生成优化智能体的表现极大程度上依赖于给LLM的提示词Prompt。上面的system_prompt是一个基础版本。在实际应用中我们需要不断优化它以提高代码的准确性、安全性和任务完成率。优化方向1增加上下文和示例Few-Shot Learning在system_prompt中提供一两个例子能显著提升模型生成代码的格式和逻辑。enhanced_system_prompt 你是一个帮助用户操作计算机文件的智能助手。你的行动方式是生成一段Python代码来完成任务。示例1 任务在桌面创建一个名为“笔记”的文件夹。观察当前桌面有文件A.txt, 图片B.jpg。代码 python import os desktop_path os.path.join(os.path.expanduser(~), Desktop) new_folder os.path.join(desktop_path, 笔记) os.makedirs(new_folder, exist_okTrue) print(f文件夹创建成功{new_folder})示例2 任务找出当前目录下所有扩展名为.txt的文件并打印它们的文件名。观察当前目录有 a.txt, b.jpg, c.txt。代码import os txt_files [f for f in os.listdir(.) if f.endswith(.txt)] print(找到的文本文件) for f in txt_files: print(f)请遵循以下规则只使用Python标准库。代码必须安全避免删除或修改未指定的文件。输出清晰的结果信息。根据观察和任务生成代码。现在请根据以下观察和任务生成代码**优化方向2引导模型进行推理Chain-of-Thought** 要求模型在生成代码前先以注释的形式写出思考步骤这能让生成的代码逻辑更清晰也便于我们调试。 python reasoning_prompt 请先以#注释的形式简要分析任务目标和当前环境规划实现步骤。然后生成实现上述步骤的Python代码。在解析模型回复时我们需要分离出注释部分和可执行代码部分。优化方向3增加安全约束在提示词中明确禁止某些操作并建议使用更安全的替代方案。例如“禁止使用os.system或subprocess调用shell命令除非绝对必要。”“操作文件前先检查路径是否存在。”“使用shutil.move而非os.rename以处理跨设备移动。”实操心得提示词优化是一个迭代过程。最好的方法是准备一个小型测试任务集然后批量运行统计任务成功率并分析失败案例中模型生成的代码问题针对性地修改提示词。例如如果发现模型经常尝试删除文件就在提示词中强调“未经用户明确许可不要删除任何文件”。4. 从演示到实用关键挑战与解决方案将上述演示代码转化为一个真正可用的系统我们面临着几个核心挑战。解决这些挑战的过程正是深入理解Code-Act价值所在。4.1 环境观察的丰富性与表示我们的演示只观察了文件列表。一个实用的智能体需要更丰富的环境状态。例如对于“整理我的桌面”这个任务智能体需要知道桌面上有哪些文件、它们的图标位置、甚至可能的内容预览。解决方案屏幕捕捉与OCR使用pyautogui截图结合pytesseract进行OCR识别获取屏幕上的文字信息。这对于操作图形界面软件如资源管理器是必要的。可访问性API在Windows上可以使用pywin32调用UI Automation API在macOS上可以使用pyobjc调用Accessibility API。这能获取到窗口标题、按钮状态等结构化信息比纯图像分析更可靠。特定应用接口对于目标软件如Chrome浏览器可以使用selenium或pyppeteer来获取DOM状态对于IDE可能提供专门的插件或LSP接口。代码示例简化版屏幕观察import pyautogui from PIL import Image import io def get_screen_observation(): 获取屏幕截图并生成简化的文本描述实际应用需接入视觉模型 screenshot pyautogui.screenshot() # 此处简化处理实际应接入GPT-4V或本地VLM模型描述图片 # 例如image_bytes io.BytesIO(); screenshot.save(image_bytes, formatPNG) # 调用多模态模型API分析image_bytes observation 屏幕截图已捕获此处应接入视觉模型生成描述。 return observation关键在于需要将多模态的观察图像、文本、结构化数据整合成一个LLM能够理解的文本描述作为下一轮“思考”的输入。4.2 代码执行的安全沙箱在我们的演示中execute_code函数是极不安全的。它允许生成的代码执行任意Python代码这在实际使用中是灾难性的。解决方案使用Docker容器这是最推荐的方式。每个任务会话在一个全新的、轻量级的Docker容器中启动。容器内只包含任务所需的最小化运行环境如Python、必要的库。任务结束后容器立即销毁。这确保了环境的隔离性和状态的可重置性。使用操作系统级别的沙箱如seccomp、AppArmor或Sandboxie可以限制进程的系统调用和文件访问范围。但这通常比Docker更复杂。代码静态分析与过滤在执行前对生成的代码进行简单的静态分析过滤掉明显危险的模块导入如os.system,subprocess.Popen,shutil.rmtree或敏感函数调用。但这是一种补充手段不能替代运行时隔离。一个基于Docker的简易安全执行器思路import docker class DockerCodeExecutor: def __init__(self): self.client docker.from_env() self.image_name python:3.9-slim # 基础镜像 def execute_in_container(self, code: str, input_filesNone): # 1. 创建临时目录写入代码文件 # 2. 使用docker SDK启动一个临时容器挂载代码目录 # 3. 在容器内运行代码并设置资源限制CPU内存 # 4. 捕获容器的输出和错误流 # 5. 无论成功与否停止并删除容器 # 6. 返回执行结果 pass使用Docker可以确保即使AI生成了rm -rf /这样的恶意代码也只会影响容器内部宿主机完全无损。4.3 任务规划与长期记忆我们的演示是单步的模型基于当前观察生成代码。但复杂任务需要多步规划。例如“下载一封邮件附件用Excel打开提取第二列数据生成图表并保存”涉及多个软件和步骤。解决方案ReActReasoning Acting模式要求LLM在每一步不仅输出行动代码还输出一个“思考Thought”。这个思考是对当前状况的分析和下一步计划的简述。我们将这个思考也存入历史作为后续决策的上下文。这能帮助智能体保持任务主线。向量数据库存储历史对于非常长的对话和行动历史可以将历史观察、行动和结果转换成向量存入如ChromaDB或FAISS中。当需要决策时检索最相关的历史片段作为上下文避免超过模型的令牌限制。高层次任务分解在开始执行具体代码前先让LLM做一个高层次的任务分解计划。例如先输出一个JSON格式的计划[{step: 1, goal: 定位并下载邮件附件}, {step: 2, goal: 用pandas读取Excel文件}, ...]。然后智能体再逐步执行每个子目标。5. 常见问题与调试技巧实录在实际开发和测试Code-Act类智能体的过程中我踩过不少坑。这里总结几个最常见的问题和解决思路希望能帮你节省时间。5.1 生成的代码语法错误或无法运行这是初期最常见的问题。LLM生成的代码有时会有缩进错误、拼写错误的变量名或使用了不存在的库。排查与解决增加语法检查步骤在执行前先用py_compile或ast.parse模块快速检查代码语法。如果语法错误直接将错误信息反馈给LLM让它重新生成。import ast def validate_python_syntax(code): try: ast.parse(code) return True, None except SyntaxError as e: return False, f语法错误{e.msg} at line {e.lineno}在提示词中强化规范明确要求模型“生成可直接运行的、语法正确的Python代码”。提供更清晰的格式示例。使用更强大的模型GPT-4在代码生成上的准确率远高于GPT-3.5。如果条件允许优先使用GPT-4或Codex系列模型。后处理与修正对于简单的缩进或常见拼写错误可以编写简单的规则进行自动修正作为兜底策略。5.2 智能体陷入循环或偏离目标智能体可能会重复执行相似的操作或者在解决一个子问题后忘记了主要任务。排查与解决在观察中强化任务目标在每一步传给LLM的观察信息里都重复一遍最原始的任务描述防止模型“失忆”。设置最大步数像我们演示代码中那样强制设定一个循环上限如10步避免无限循环。引入“放弃”或“求助”机制当智能体连续几步都无法推进任务状态时例如生成的代码执行结果没有变化可以让它输出一个特殊信号如# 任务受阻需要用户澄清然后由外部流程介入。改进奖励设计如果使用强化学习对于更高级的智能体可以设计一个奖励函数对接近目标的行为给予正奖励对重复或无意义的行为给予负奖励引导其学习。5.3 执行环境与开发环境差异在开发机上运行成功的代码可能在智能体的沙箱环境中失败因为缺少某个库或文件权限不同。排查与解决严格限制库的使用在提示词中强制要求“仅使用Python标准库”。如果需要第三方库必须在沙箱环境中预先安装好并在提示词中明确告知模型可用的库列表。提供环境说明在system_prompt中详细说明执行环境例如“你生成的代码将在Python 3.9的Linux环境中运行工作目录是/workspace已安装pandas和requests库。”模拟完整测试在部署前将智能体生成的典型任务代码在干净的沙箱环境如Docker容器中批量测试确保环境一致性。5.4 处理模糊或复杂的用户指令用户可能会说“整理一下我的下载文件夹”这是一个非常模糊的指令。不同的人对“整理”的定义不同。排查与解决引导用户澄清设计智能体的第一反应不是直接行动而是生成一段代码来“询问”用户。例如它可以先运行一段代码列出下载文件夹的所有文件类型然后输出“发现.pdf,.jpg,.zip等文件。请问您希望按文件类型、按日期还是按其他方式整理” 将问题抛回给用户。提供默认策略并告知用户智能体可以采用一种默认的、合理的整理策略例如按文件后缀创建子文件夹并在执行前输出“我将按文件类型整理您的下载文件夹。即将创建‘文档’、‘图片’、‘压缩包’等子文件夹并移动文件。是否继续” 这实现了“确认-执行”的安全模式。我个人在实践中的一个深刻体会是Code-Act智能体的可靠性是“提示词工程”、“安全沙箱”和“任务设计”三者共同作用的结果。一个模糊的任务再好的模型和提示词也可能失败。一个危险的任务再安全的沙箱也可能有漏洞。因此在应用设计时要明确智能体的能力边界优先让它处理定义清晰、范围受限、结果可验证的任务比如“将指定文件夹内所有.csv文件合并为一个Excel文件”而不是开放式的“帮我分析一下数据”。从简单、具体的场景入手积累经验和信心再逐步拓展到更复杂的领域是构建实用AI智能体的稳妥路径。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2618189.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！