小白程序员必看:四步轻松构建你的第一个AI编码Agent,收藏学习!
本文详细介绍了如何通过四个步骤构建一个基础的AI编码Agent包括接入大型语言模型LLM、添加实用工具如读取、写入和执行文件、构建Agent循环以及实现对话循环。文章以Python语言为例逐步引导读者完成整个过程并提供了GitHub上的完整示例代码。通过学习本文即使是编程初学者也能掌握构建AI Agent的基本技能为将来开发更复杂的智能系统打下坚实基础。1. **四步构建法** 2. **实现编码 Agent** 2.0 项目设置 2.1 接入 LLM 2.2 添加工具 2.2.1 先添加一个 read 工具 2.2.2 添加更多工具 2.3 构建 agent 循环 2.4 构建对话循环 写在最后 参考资料进入 2026 年AI Agent 越来越频繁地出现在我们的视野里那到底什么是 AI Agent举个例子3 月份爆火的 OpenClaw “小龙虾”本质上是一个 AI Agent开发人员最常用的 AI 辅助编程工具 Claude Code 和 Codex本质上也是 AI Agent。OpenClaw 和 Claude Code 功能全面代码量也庞大。这篇文章我们会一步一步构建一个最小版本的编码 Agent以此建立对 AI Agent 的直观感受。四步构建法文章按照下面 4 个步骤来构建 agent接入 LLM添加工具构建 agent 循环构建对话循环不论实现的 agent 执行什么任务都可以采用这样的 4 个步骤来构建。实现编码 AgentAgent 可以使用我们熟悉的任何语言来实现例如 TypeScriptPythonRust 等等只要它接入 LLM 方便可以调用 shell 命令工具就行。这里我们选择 Python。完整的示例代码已经上传到 GitHub链接在文章后面2.0 项目设置# 如果没有安装 uv先安装它 pip install uv # 初始化 uv 环境 uv init2.1 接入 LLMLLM 选择了 KimiKimi 开放平台[1] 注册的账号在完成个人认证后会收到 15¥ 赠送额度拿来演示够用了。Kimi 开放平台兼容 OpenAI 协议可以直接使用 OpenAI SDK 接入。## 添加 openai 依赖库 uv add openai1.0 python-dotenv## 文件1_with_kimi.py import sys import os from openai import OpenAI from dotenv import load_dotenv load_dotenv() client OpenAI( api_keyos.environ[MOONSHOT_API_KEY], base_urlhttps://api.moonshot.cn/v1, ) content sys.argv[1] completion client.chat.completions.create( modelkimi-k2.6, messages[ { role: user, content: content, } ], ) print(completion.choices[0].message.content)验证 LLM 接入是否成功$ python 1_with_kimi.py 中国面积最大的省份是哪个 严格来说中国面积最大的省是青海省面积约72.23万平方公里。 不过如果问题指的是所有省级行政区包括自治区、直辖市等那么面积最大的是新疆维吾尔自治区面积约166.49万平方公里它也是中国最大的省级行政区。 简单区分 * 最大的省青海省 * 最大的省级行政区新疆维吾尔自治区 * 其他面积较大的省还有四川省约48.6万平方公里和黑龙江省约47.3万平方公里。2.2 添加工具2.2.1 先添加一个 read 工具首先添加一个read工具它允许 agent 从文件系统读取文件。我们使用 Python 库Pydantic进行 schema 验证这个库也能生成 API JSON schema。uv add pydanticfrom pathlib import Path from pydantic import BaseModel classReadArgs(BaseModel): Read a filesystem file path: str defread(args: ReadArgs) - str: try: return Path(args.path).read_text() except Exception as e: returnfError: {e}可以通过下面的代码查看Pydantic库生成的 schemaprint(ReadArgs.model_json_schema())为类ReadArgs生成的 json schema 是下面这样的{ description:Read a filesystem file, properties:{ path:{ title:Path, type:string } }, required:[ path ], title:ReadArgs, type:object }将Pydantic库生成的 schema 包装成 LLM 可理解的工具描述read_tool: ChatCompletionToolParam { type: function, function: { name: read, description: Read a file and return its contents., parameters: ReadArgs.model_json_schema(), }, }调用 LLM 时将 read 工具添加到 API 请求中LLM 处理 API 请求决定要使用的工具然后通知 agentagent 根据收到的通知执行指定的工具并将工具结果送回 LLMclient OpenAI( api_keyos.environ[MOONSHOT_API_KEY], base_urlhttps://api.moonshot.cn/v1, ) content sys.argv[1] init_message: ChatCompletionMessageParam { role: user, content: content, } completion client.chat.completions.create( modelkimi-k2.6, messages[init_message], tools[read_tool], extra_body{thinking: {type: disabled}}, ) # LLM decided to use the read tool tool_call next( choice.message.tool_calls[0].function for choice in completion.choices if choice.finish_reason tool_calls ) print(f[Tool: {tool_call.name}]) args ReadArgs.model_validate_json(tool_call.arguments) result do_read(args) # Send the result back to LLM assistant_message: ChatCompletionAssistantMessageParam { role: assistant, tool_calls: completion.choices[0].message.tool_calls, } tool_message: ChatCompletionToolMessageParam { role: tool, content: result, tool_call_id: completion.choices[0].message.tool_calls[0].id, } # Get final LLM response final_completion client.chat.completions.create( modelkimi-k2.6, messages[init_message, assistant_message, tool_message], tools[read_tool], extra_body{thinking: {type: disabled}}, ) print(final_completion.to_json())执行脚本看下运行结果python 2_add_read_tool.py 读取文件 1_with_kimi.py { id: chatcmpl-69e7abbffd3dc648605819a3, choices: [ { finish_reason: stop, index: 0, message: { content: 文件 1_with_kimi.py 的内容如下/n/npython/nimport sys/nimport os/n/nfrom openai import OpenAI/nfrom dotenv import load_dotenv/n/nload_dotenv()/n/nclient OpenAI(/n api_keyos.environ[/MOONSHOT_API_KEY/],/n base_url/https://api.moonshot.cn/v1/,/n)/n/ncontent sys.argv[1]/n/ncompletion client.chat.completions.create(/n model/kimi-k2.6/,/n messages[/n {/n /role/: /user/,/n /content/: content,/n }/n ],/n)/n/nprint(completion.choices[0].message.content)/n/n/n这是一个使用 Moonshot AI API 调用 Kimi 模型的 Python 脚本。它的主要功能/n/n1. 导入依赖使用 openai 库兼容 OpenAI API 格式和 python-dotenv 加载环境变量/n2. 配置 API从环境变量读取 MOONSHOT_API_KEY设置 Moonshot API 的基础 URL/n3. 接收输入通过命令行参数 sys.argv[1] 获取用户输入内容/n4. 调用模型使用 kimi-k2.6 模型生成回复/n5. 输出结果打印模型的回复内容/n/n使用方法示例/nbash/npython 1_with_kimi.py /你好请介绍一 下自己//n, role: assistant } } ], created: 1776790463, model: kimi-k2.6, object: chat.completion, usage: { completion_tokens: 286, prompt_tokens: 214, total_tokens: 500, prompt_tokens_details: { cached_tokens: 214 }, cached_tokens: 214 } }注意脚本中发起了两次 LLM 调用一次告知 LLM 可用的工具第二次将工具调用的结果发送回 LLM下面的时序图很直观地展示了组件之间的交互过程2.2.2 添加更多工具我们已经添加了一个read工具作为一个编码 agent 还需要这些功能写新文件编辑现有文件执行代码来测试它们对应另外三个工具write、edit和bash。跟read工具类似的先定义工具参数class WriteArgs(BaseModel): Create or overwrite a file. file_path: str content: str classEditArgs(BaseModel): Find and replace text in a file. file_path: str old_str: str new_str: str classBashArgs(BaseModel): Execute a shell command. command: str然后是实际工具逻辑def do_write(args: WriteArgs) - str: try: path Path(args.file_path) path.parent.mkdir(parentsTrue, exist_okTrue) path.write_text(args.content) returnfWrote {len(args.content)} bytes to {args.file_path} except Exception as e: returnfError: {e} defdo_edit(args: EditArgs) - str: try: path Path(args.file_path) content path.read_text() new_content content.replace(args.old_str, args.new_str) path.write_text(new_content) returnEdit successful except Exception as e: returnfError: {e} defdo_bash(args: BashArgs) - str: try: result subprocess.run( args.command, shellTrue, capture_outputTrue, textTrue, timeout60, ) output result.stdout result.stderr return output if output.strip() else(no output) except Exception as e: returnfError: {e}接下来注册工具 schematools: Iterable[ChatCompletionToolParam] [ { type: function, function: { name: read, description: Read a file., parameters: ReadArgs.model_json_schema(), }, }, { type: function, function: { name: write, description: Write a file., parameters: WriteArgs.model_json_schema(), }, }, { type: function, function: { name: edit, description: Edit a file., parameters: EditArgs.model_json_schema(), }, }, { type: function, function: { name: bash, description: Run a shell command., parameters: BashArgs.model_json_schema(), }, }, ] tool_register { read: (ReadArgs, do_read), write: (WriteArgs, do_write), edit: (EditArgs, do_edit), bash: (BashArgs, do_bash), } cls, tool tool_register[tool_call.name] args cls.model_validate_json(tool_call.arguments) result tool(args)执行脚本看下运行结果$ python 3_add_more_tools.py 生成一个 hello.py 输出 hello agent [Tool: write] { id: chatcmpl-69e82e3f15c65485915eb447, choices: [ { finish_reason: tool_calls, message: { content: , role: assistant, tool_calls: [ { id: bash:1, function: { arguments: {/command/: /python hello.py/}, name: bash }, type: function, index: 0 } ] } } ], created: 1776823888, model: kimi-k2.6, object: chat.completion, usage: { completion_tokens: 20, prompt_tokens: 213, total_tokens: 233 } } $ python hello.py hello agentLLM 现在可以编写代码、运行代码、查看结果并修复。但是 Kimi 返回的响应还需要 agent 执行python hello.py命令当前的代码只能处理一个工具调用接下来我们构建 agent 循环来解决这个问题。注意bash工具的实现通过这个工具可以删除整个文件系统所以比较危险建议在隔离环境中运行脚本。2.3 构建 agent 循环实际任务通常需要多个步骤读取文件、编辑它、运行它、查看错误、修复它。我们需要实现一个循环让 LLM 可以持续调用工具直到任务完成。将工具的调用封装在while True循环中tool_register { read: (ReadArgs, do_read), write: (WriteArgs, do_write), edit: (EditArgs, do_edit), bash: (BashArgs, do_bash), } client OpenAI( api_keyos.environ[MOONSHOT_API_KEY], base_urlhttps://api.moonshot.cn/v1, ) content sys.argv[1] messages: Iterable[ChatCompletionMessageParam] [ { role: user, content: content, }, ] task_done False whileTrue: completion client.chat.completions.create( modelkimi-k2.6, messagesmessages, toolstools, extra_body{thinking: {type: disabled}}, ) for choice in completion.choices: if choice.finish_reason stop: print(completion.to_json()) task_done True if task_done: break for choice in completion.choices: if choice.finish_reason tool_calls: assistant_message: ChatCompletionAssistantMessageParam { role: assistant, tool_calls: choice.message.tool_calls, } messages.append(assistant_message) for tool_call in choice.message.tool_calls: print(f[Tool: {tool_call.function.name}]) cls, tool tool_register[tool_call.function.name] args cls.model_validate_json(tool_call.function.arguments) result tool(args) tool_message: ChatCompletionToolMessageParam { role: tool, content: result, tool_call_id: tool_call.id, } messages.append(tool_message)注意我们发送给 LLM 的消息包含循环过程中生成的所有历史消息在实际工程中这里需要构建更有效的上下文管理。我们通过一个多步骤任务来测试脚本$ python 4_add_agent_loop.py 生成一个 python 脚本输出 hello agent保存在 hello.py 中然后运行 [Tool: write] [Tool: bash] { id: chatcmpl-69e83d4aa963dee2c374ad30, choices: [ { finish_reason: stop, index: 0, message: { content: 已完成我创建了一个 hello.py 文件内容为 print(/hello agent/)并运行了该脚本成功输出了 hello agent。, role: assistant } } ], created: 1776827775, model: kimi-k2.6, object: chat.completion, usage: { completion_tokens: 36, prompt_tokens: 262, total_tokens: 298 } }2.4 构建对话循环现在 agent 处理一个查询后就会退出真实的场景是这样的用户问一个问题得到答案继续下一个问题。所以我们还需要一个不断请求用户输入的外部循环。messages [] whileTrue: user_input input( ) ifnot user_input.strip(): continue messages.append({role: user, content: user_input}) task_done False whileTrue: completion client.chat.completions.create( modelkimi-k2.6, messagesmessages, toolstools, extra_body{thinking: {type: disabled}}, ) for choice in completion.choices: if choice.finish_reason stop: print(completion.to_json()) task_done True if task_done: break执行脚本看看运行效果如何$ python 5_add_user_loop.py hello Hello! How can I help you today? 写一个 shell 脚本输出 hello agent 保存在 hello.sh 中不需要运行。 [Tool: write] 已创建 hello.sh 文件内容如下 /bash #!/bin/bash echohello agent / 脚本已保存未运行。每轮对话都会包含历史消息所以 LLM 可以记得上下文至此我们就实现了一个完整的编码 agent。实现中只是追加所有以前的消息这意味着上下文会增长得很快。写在最后事实上编码 agent 可以当作通用 agent 来用只是它恰好擅长编写代码。不管是编码 agent还是搜索 agent、浏览器 agent、电子邮件 agent、数据库 agent无论执行什么任务它们都遵循相同的模式唯一的区别在于它们所使用的工具。最近爆火的 harness 工程概念本质上还是在围绕 LLM 构建脚手架和基础设施。如果把 LLM 比作一匹日行千里的良驹那 harness 工程就是在给 LLM 配上“挽具”循环 - 请求模型、解析其输出、执行工具、反馈结果执行工具 - 运行模型请求的代码/命令上下文管理 - 构建提示词、维护历史对话、控制上下文大小安全和审计 - 操作权限控制、隔离、操作历史状态 - 跟踪对话和文件变动等等示例项目放在https://github.com/cuiguoke/easy-agents感兴趣的小伙伴还可以参考下面两个项目Pi 编码 agent[2] - 支持从多个目录加载AGENTS.md上下文、会话恢复、子会话等工具系统设计为可扩展的支持 skills、工具等等OpenClaw[3] - 功能更丰富持久运行、支持 IM 接入Telegram、WhatsApp 等、基于文件的记忆系统SOUL.md、MEMORY.md、每日日志、定时任务、预集成工具浏览器、子 agent、设备控制等等小白/程序员如何系统学习大模型LLM由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线互联网企业工作十余年里指导过不少同行后辈。帮助很多人得到了学习和成长。我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限很多互联网行业朋友无法获得正确的资料得到学习提升故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…学习是一个过程只要学习就会有挑战。天道酬勤你越努力就会成为越优秀的自己。如果你能在15天内完成所有的任务那你堪称天才。然而如果你能完成 60-70% 的内容你就已经开始具备成为一名大模型 AI 的正确特征了。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2629726.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!