从 LLM 到 Agent Skill

news2026/5/12 6:38:12

AI Agent 入门指南从零理解智能体的世界理解 AI Agent 生态中的核心概念知道每个名词是做什么用的一、先搞清楚什么是 AI Agent想象你有一个超级聪明的数字助理它不仅能聊天还能主动帮你做事它会自己思考下一步该干什么遇到不懂的它会查资料、用工具来完成任务这就是AI Agent智能体—— 一种能够感知环境、自主决策、执行动作的人工智能系统。Agent LLM大脑工具手脚自主规划灵魂二、核心概念1. LLM大语言模型—— Agent 的大脑是什么LLM 全称 Large Language Model比如 ChatGPT、Kimi、Claude 等。它们通过海量文本训练学会了理解和生成人类语言。在 Agent 中有什么用Agent 的所有思考都靠 LLM 完成理解你的需求规划执行步骤生成回复内容判断任务是否完成举例你说帮我规划一个 3 天 2 晚的杭州旅行LLM 会理解你的需求旅行规划、分析约束条件3天2晚、杭州、生成包含景点、交通、住宿的完整方案。常见 LLM模型出品公司特点GPT-4oOpenAI综合能力强多模态Kimi K2.6Moonshot AI长上下文200万字中文优秀Claude 4Anthropic推理能力强安全性高DeepSeek-V3DeepSeek开源性价比高类比LLM 就像 Agent 的大脑皮层负责认知和推理。2. Token —— AI 的计量单位是什么Token 是 LLM 处理文本的最小单位。你可以理解为 AI 的文字碎片英文1 个 token ≈ 0.75 个单词中文1 个汉字 ≈ 1~2 个 token为什么重要计费标准调用 API 按 token 数量收费长度限制每个 LLM 都有上下文窗口比如 128K tokens决定了它能记住多少内容性能指标处理速度常以 tokens/秒衡量举例你发送了一段 500 字的中文文章让 AI 总结。这段文章大约占用800~1000 个 tokens。如果模型上下文窗口是 4K tokens那它还能记住大约 3000 tokens 的后续对话。超过这个限制最早的内容就会被遗忘。计费参考以 GPT-4o 为例输入$2.5 / 1M tokens约 50 万字中文输出$10 / 1M tokens也就是说你发一篇 1000 字的文章给 GPT-4o 分析成本大约0.005 元人民币。类比Token 就像 AI 的脑细胞消耗量做越复杂的事消耗越多。3. Context上下文—— AI 的记忆黑板是什么Context 是 Agent 当前能看到的全部信息包括你之前说的话系统给它的角色设定它自己查到的资料工具返回的结果为什么重要LLM 是无状态的——它不会真正记住你每次对话都靠上下文来假装记得。如果上下文太长早期的信息会被遗忘超出窗口限制。举例你正在和 AI 讨论一篇论文Round 1你粘贴了论文摘要占 500 tokensRound 2你问了 3 个相关问题占 300 tokensRound 3你让 AI 对比另一篇论文又粘贴 500 tokens如果上下文窗口是 2K tokens到第 5 轮时最早粘贴的论文摘要可能已经被挤出上下文AI 就会忘记那篇论文的内容回答变得不准确。解决策略RAG检索增强生成把长文档切分成小块只把最相关的部分放入上下文摘要压缩定期让 AI 总结之前的对话用摘要替代原文类比Context 就像一块黑板写满了就擦掉最上面的内容。Agent 的设计核心之一就是如何高效管理这块黑板。4. Prompt提示词—— 指挥 AI 的咒语是什么Prompt 是你输入给 AI 的指令或问题。但高级的 Prompt 远不止问句话那么简单。在 Agent 中的高级用法System Prompt给 Agent 设定角色你是一个专业的旅行规划师...Few-shot Prompt给几个例子让 AI 模仿风格Chain-of-Thought引导 AI 一步步思考请先分析需求再列出步骤...举例 1普通 Prompt vs 高级 Prompt普通 Prompt写一首关于春天的诗。高级 Prompt角色设定风格示例你是一位擅长写现代诗的诗人风格类似海子语言简洁、意象丰富、富有哲思。请写一首关于春天的诗要求 1. 不超过 12 行 2. 包含风、种子、远方三个意象 3. 结尾要有留白给人想象空间举例 2Chain-of-Thought引导思考请帮我计算一个商店进了 150 个苹果上午卖出 1/3下午卖出剩下的 2/5还剩多少请按以下步骤思考并回答 Step 1: 计算上午卖出多少个 Step 2: 计算上午卖出后还剩多少个 Step 3: 计算下午卖出多少个 Step 4: 计算最终剩余多少个 Step 5: 给出最终答案这样引导后AI 的准确率会显著提升从约 60% 提升到 90%。类比Prompt 是程序员和 AI 之间的接口设计。写得好AI 表现好写得烂AI 变智障。5. Tool工具—— Agent 的手脚是什么Agent 不能光靠想来解决问题它需要调用外部工具搜索工具查 Google、百度、维基百科计算工具做数学题、写代码执行文件工具读取本地文档、操作数据库API 工具调用天气、地图、股票等第三方服务为什么重要LLM 的知识有截止日期比如 GPT-4o 知识截止到 2023 年 10 月也无法直接操作现实世界。工具让 Agent 突破这些限制真正动手做事。举例 1搜索工具你问今天杭州天气怎么样LLM 本身不知道今天的天气知识有截止日期。Agent 会识别出需要实时天气信息调用天气查询工具如和风天气 API获取实时数据杭州今天晴25°C东南风 2 级用 LLM 组织成自然语言回复你举例 2代码执行工具你问帮我算一下 234567890123 的平方根LLM 直接算很容易出错大数计算不是它的强项。Agent 会调用Python 代码执行工具执行math.sqrt(234567890123)返回精确结果484322.712...举例 3文件工具你上传了一个 Excel 文件说分析这个销售数据找出增长最快的品类Agent 会调用文件读取工具解析 Excel调用数据分析工具如 Pandas计算增长率调用图表生成工具画出趋势图用 LLM 撰写分析报告类比如果 LLM 是大脑Tool 就是手脚和感官。没有工具Agent 只能纸上谈兵。6. MCP模型上下文协议—— 工具的通用插座是什么MCP 全称Model Context Protocol由 Anthropic 于 2024 年提出是一个开放标准协议。解决了什么问题以前每个 AI 平台都有自己的工具接入方式OpenAI 有 Function CallingGoogle 有 Tool Use各家格式不统一开发者要为不同平台重复开发工具适配层。MCP 就像USB-C 接口——统一了 AI 与外部工具、数据源、系统的连接标准。核心能力让 LLM 安全地访问本地文件、数据库统一工具描述格式一次开发多处使用支持双向通信AI 既能查数据也能写数据举例MCP 的实际应用假设你开发了一个查公司工商信息的工具没有 MCP 之前给 OpenAI 适配一套代码给 Claude 适配一套代码给 Kimi 适配一套代码每新增一个模型都要重写适配层有了 MCP 之后你只需按 MCP 标准写一个工具描述文件所有支持 MCP 的 AI 平台Claude、Cursor、Kimi 等都能直接调用真正做到一次开发到处运行MCP 的架构┌─────────────┐ ┌─────────────┐ ┌─────────────┐ │ AI 应用 │ ←────→ │ MCP 协议层 │ ←────→ │ 外部工具/ │ │ (Claude/Cursor│ │ (统一接口) │ │ 数据源 │ │ /Kimi 等) │ │ │ │ (文件/DB/API)│ └─────────────┘ └─────────────┘ └─────────────┘类比MCP 是 AI 时代的万能转接头让各种工具都能即插即用。7. Agent —— 自主运行的数字员工是什么前面说的都是零件Agent 是把这些零件组装起来的完整系统。Agent 的核心循环ReAct 框架1. 观察Observation→ 看到当前状态 2. 思考Thought→ LLM 推理下一步 3. 行动Action→ 选择调用工具或回复用户 4. 循环 → 直到任务完成举例 1旅行规划 Agent用户目标帮我规划一个周末去上海迪士尼的行程预算 2000 元Agent 的执行过程步骤思考Thought行动Action观察Observation1用户要去上海迪士尼需要查交通、门票、住宿调用搜索工具查高铁票价杭州→上海虹桥二等座 ¥732交通成本约 ¥150往返还剩 ¥1850调用搜索工具查迪士尼门票平日票 ¥475周末票 ¥5993门票 ¥599还剩 ¥1251 用于住宿和餐饮调用搜索工具查附近酒店周边酒店 ¥300-800/晚4住宿预算 ¥500餐饮 ¥400还有余量调用地图工具查地铁线路虹桥→迪士尼地铁 10 号线转 11 号线约 90 分钟5信息收集完毕可以生成方案了调用LLM生成完整行程输出详细的 2 天 1 晚行程单举例 2AI 客服 Agent用户问题我上周买的耳机左耳没声音了订单号 #12345Agent 的执行过程调用订单查询工具→ 查到订单AirPods Pro购买日期 7 天前调用知识库工具→ 查到故障排查流程调用LLM→ 生成回复您好您的耳机在 15 天包换期内建议先尝试重置蓝牙配对...如仍有问题可申请换货。如果用户说还是不行→ 调用工单创建工具→ 自动生成售后工单举例 3数据分析 AgentAutoGPT 风格用户目标分析我司 Q3 销售数据找出问题并给出建议Agent 自主执行读取Q3_sales.xlsx发现数据有缺失值 → 自动调用数据清洗工具计算各区域增长率 → 发现华东区下滑 15%调用搜索工具查行业报告 → 发现竞品同期在华东区大力促销生成完整分析报告含图表、结论、建议类比Agent 是一个能自主完成 KPI 的数字实习生你只需要下达目标它自己搞定过程。8. Agent SkillAgent 技能—— 可复用的能力模块是什么Skill 是 Agent 的预制功能包。比如web_search_skill封装了搜索引擎调用逻辑code_execution_skill封装了 Python 代码运行环境email_send_skill封装了邮件发送功能ppt_generation_skill封装了 PPT 自动生成功能为什么重要模块化像乐高积木一样组合不同能力复用性一个 Skill 可以在多个 Agent 中使用低代码非程序员也能通过配置 Skill 来构建 Agent举例 1Coze扣子平台的 Skill在字节跳动的 Coze 平台上构建一个 Agent 就像搭积木新建一个 Bot从 Skill 商店添加技能添加网页搜索 Skill添加图片生成 Skill添加代码执行 Skill配置 Prompt你是一个全能助手擅长搜索、画图、写代码发布一个具备多种能力的 Agent 就诞生了举例 2Dify 工作流中的 Skill在 Dify 平台上你可以把常用逻辑封装成 SkillSkill: 周报生成器 ├── 步骤 1: 读取本周 Git 提交记录调用 Git API Tool ├── 步骤 2: 读取本周会议纪要调用飞书 API Tool ├── 步骤 3: 用 LLM 总结成周报格式 └── 步骤 4: 发送邮件给主管调用邮件 Tool封装好后每周一早上Agent 自动执行这个 Skill帮你生成并发送周报。举例 3开源社区的 Skill 生态GitHub 上有很多开源的 Agent Skillbrowser-use让 Agent 能操作浏览器自动填表、抢票、查信息composio提供 100 预置工具GitHub、Notion、Gmail、Slack 等langchain-community社区贡献的各种工具封装开发者可以直接 import 使用不用从零开发。类比Skill 是 Agent 的APP 商店下载安装就能扩展新能力。三、知识串联一张图看懂全貌┌─────────────────────────────────────────┐ │ 用户输入Prompt │ └─────────────────┬───────────────────────┘ ▼ ┌─────────────────────────────────────────┐ │ ┌─────────┐ ┌──────────┐ ┌────────┐ │ │ │ LLM │ │ Context │ │ Token │ │ ← 核心引擎 │ │ (大脑) │ │ (记忆) │ │ (燃料) │ │ │ └────┬────┘ └──────────┘ └────────┘ │ │ │ │ │ ▼ │ │ ┌─────────────────────────────────┐ │ │ │ MCP 协议层 │ │ ← 统一接口 │ │ 模型上下文协议 │ │ │ └─────────────┬───────────────────┘ │ │ │ │ │ ┌────────┴────────┐ │ │ ▼ ▼ │ │ ┌─────────┐ ┌──────────┐ │ │ │ Tool │ │ Skill │ │ ← 能力扩展 │ │ (工具) │ │ (技能包) │ │ │ │ ·搜索 │ │ ·写代码 │ │ │ │ ·计算 │ │ ·发邮件 │ │ │ │ ·查API │ │ ·做PPT │ │ │ └─────────┘ └──────────┘ │ └─────────────────────────────────────────┘ │ ▼ ┌─────────────────┐ │ Agent 系统 │ ← 自主决策循环 │ 目标 → 思考 → 行动 → 完成 └─────────────────┘四、总结概念一句话理解地位典型例子LLM会说话的超级大脑核心GPT-4o、Kimi、ClaudeTokenAI 的计费/记忆单位燃料1000 字中文 ≈ 1500 tokensContextAI 能看到的当前信息黑板对话历史系统设定工具结果Prompt指挥 AI 的指令艺术遥控器角色设定思考链引导ToolAI 操作现实世界的手段手脚搜索、计算、文件读取、API 调用MCP工具的统一连接标准插座一次开发Claude/Cursor/Kimi 通用Agent能自主思考行动的系统成品旅行规划 Agent、AI 客服、数据分析 AgentAgent Skill可复用的功能模块零件包Coze Skill 商店、Dify 工作流五、一个完整的 Agent 实战案例场景你是一个大学生想让 Agent 帮你完成期末论文资料收集任务。你输入的目标帮我收集关于生成式 AI 对教育行业影响的论文资料需要5 篇核心期刊论文、2 份行业报告、1 份数据图表。整理成 Markdown 格式的文献综述大纲。Agent 的完整执行流程目标接收 │ ▼ LLM 拆解任务 ├── 子任务 1: 搜索核心期刊论文5 篇 ├── 子任务 2: 搜索行业报告2 份 ├── 子任务 3: 查找相关数据图表 └── 子任务 4: 整理成 Markdown 大纲 │ ▼ 调用搜索 Tool通过 MCP 协议 ├── 调用 Google Scholar API → 找到 8 篇相关论文 ├── 调用 arXiv API → 找到 3 篇预印本 └── 调用行业数据库 → 找到 4 份报告 │ ▼ Context 管理 ├── 将搜索结果存入上下文 ├── 筛选最相关的 5 篇论文 2 份报告 └── 调用图表生成 Tool 制作数据可视化 │ ▼ LLM 生成最终输出 ├── 读取 Context 中的所有资料 ├── 按学术格式组织内容 └── 生成 Markdown 文献综述大纲 │ ▼ 任务完成输出结果最终输出示例# 生成式 AI 对教育行业影响 —— 文献综述大纲 ## 一、研究背景与现状 - [论文 1] 《Generative AI in Education》...Nature, 2024 - [论文 2] 《The Impact of ChatGPT on Learning Outcomes》...Science, 2023 ## 二、主要影响维度 ### 2.1 教学方式变革 - [论文 3] ... ### 2.2 学生认知发展 - [论文 4] ... ### 2.3 教育公平性 - [论文 5] ... ## 三、行业数据支撑 - [报告 1] 麦肯锡《EdTech 2024 趋势报告》 - [报告 2] 艾瑞咨询《中国 AI教育白皮书》 - [图表] 全球生成式 AI 教育应用市场规模2020-2025 ## 四、总结与展望 ...整个过程中你只输入了一句话Agent 自主完成了搜索、筛选、整理、格式化。这就是 Agent 的价值——把复杂任务自动化。最后的话AI Agent 不是遥不可及的黑科技它正在变成像做 PPT一样的基础技能。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2605597.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！