简单聊聊现在的AI

news2026/2/17 18:39:53

简单聊聊现在的AI

前言
主要的AI模型和形式
- LLM - Large Language Model（大语言模型）
- BOT（机器人）
- LAM - Large Action Models（大行动模型）
- Agent（智能体）
结尾

前言

好久没回来写博客，这次回来。主要是身份的转变，在产品领域深耕了一些日子，目前的互联网变更的真的太快了。chatGPT才爆火多久？一下子就行业爆了，传统互联网遭受到了前所未有的冲击。我们就简单聊聊 AI 吧。

主要的AI模型和形式

现在 AI 这个词语很火，各家互联网都在 AI 上造势，那 AI 是什么？
常见 AI主要的模型和形式是：

LLM - Large Language Model（大语言模型）
BOT - 机器人

目前新型出现的是：

LAM - Large Action Models（大行动模型）
Agent - 智能体

LAM 可以被认为是LLM的升级和衍生。
Agent 也可以被认为是BOT的衍生和升级版本。当然也有一些人也认为BOT和Agent就是一个东西。但在博主看来：Agent 比 BOT有更强的记忆能力和API工具使用。

下面我们一个一个简单了解一下。

LLM - Large Language Model（大语言模型）

LLM 是最目前最常见的 AI 的主体和形态，也称大型语言模型，是一种人工智能模型。
通过人类和 AI 进行自然语言对话，智能理解人类自然语言并作出反应。
可以执行广泛的任务，包括文本总结、翻译、情感分析等等。
目前各手机厂家发布的助手使用的大多以LLM作为内部核心，是一种对话式的流程。
LLM现在已经发展的很厉害了，Chat GPT就是很好的例子。网上很多信息都完善了。

LLM的发展路径

但纯正的 LLM 仅能支持语音对话，无法做其他更多的事情，比如生图等其他生成式的能力。
那现在的助手里的生图或其他技能是怎么做到的呢？
那就是我们接下来所说的BOT

BOT（机器人）

BOT 这个形态在 AI 的形式和传统的BOT是有区别的。
传统的BOT 我们可以理解为：客服机器人这种，通过传统的产品形式去回答，交互。有一种呆呆的感觉。
而 AI 下的BOT是一种全新的形态。它是以 LLM 作为 BOT灵魂。
BOT的回答和能力是由LLM + 其他插件去完成的。
一个BOT主要包含：

Prompt（提示词）
数据库 - 用户巩固这个LLM的人设和上下文信息
知识库 - 这个BOT垂类的知识
工作流 - 可以卸载PROMPT也可以额外处理，一般看平台
用户变量 - 用户可用于替换prompt的关键部分
技能或插件 - 这里的技能和prompt的工作能力不一样，这样更主要是插件的使用。

Prompt（提示词）主要包含：

机器人的人设 - 这就是给 LLM 大模型一个专项的角色
工作任务 - LLM需要进行怎样的专项知识
工作能力 - LLM需要怎样专项的技术和能力
工作流程 - LLM如何一步一步进行工作
注意事项 - 一些限制词
其他

这是一个BOT创建平台上的一个快递查询助手BOT的示例

在这个平台例子里，左边就是prompt。右边有用到快递查询的插件和必应搜索的插件。
另外我们还可以加入生图的模型加在插件上，那么这个BOT就有了生图的能力了。

LAM - Large Action Models（大行动模型）

什么是LAM，可以简单理解是LLM的升级版本或者说是衍生，LLM是意图识别后的文本回复。，而LAM是意图识别后的行为执行。
举个例子：我需要AI帮我写一个 小红书 文本并发送
LLM能做到的是：写一个小红书 文本
而LAM能做到的是：打开小红书 - 点击笔记创建 - 生成一篇小红书 文本 - 然后点击发送。
这就是LLM和LAM最本质的区别。

哎，大家有发现这个流程是不是很像：按键精灵。
没错工作流程上，很像一个配置好的按键精灵一步一步去执行任务。
但LAM高级在：他是以LLM为基底的。有理解人类自然语言的能力，所以他就有了一句话完成多个任务的活动。

当然你肯定发现了：现在很多车机的语言助手也能完成啊，一句话完成多个任务。
但不同的是：这些语音指令是人为预设好的，描述词没靠上的话就无法完成这个任务了。
而 LAM 只需要这个应用的知识库，他就能帮你完成这个应用里的所有任务。这是 AI 自学习完成的。

LAM由一个值得注意的例子：Rabbit R1 和其的Rabbit OS，有兴趣的同学可以去看一下。这是LAM较为有参考和学习的例子。

Agent（智能体）

Agent 是目前 AI 发展的一个重要分支，网上可以找到很多AIPC、AIOS、AIXXX的，都会提到Agent这个概念。

Agent 是一种能够感知环境、进行决策和执行动作的智能实体。
它是AIOS里应用程序体现。我们可以将其类比成：Android OS里的APP程序。
它结合了（LLM + LAM + 记忆能力 + API或工具使用）
在这里插入图片描述
上文也讲到博主认为Agent 和 BOT 不同
主要是博主Agent 比 BOT 不同的地方和强悍的点：

记忆能力 -
记忆能力在于Agent有长期记忆的能力，能够长久记忆活动和上下文。这是BOT无法做到的，BOT只能完成单次对话的短时记忆，一般10轮对话后就会忘记前面的内容。
执行能力 -
执行能力在于灵魂的不同，即LAM和LLM的不同。Agent的执行逻辑遵循着：P（感知）—> P（规划）—>A（行动）类似人类「做事情」的过程，Agent的核心功能，可以归纳为三个步骤的循环：感知(Perception)、规划(Planning)和行动(Action)。哪怕是对话式的 虚拟女友 这种，也有LAM的能力。
容器 -
容器的不同在于：BOT的容器更倾向传统的GUI的开发，即还是有传统APP的方式进行开发，然后将AI 功能内嵌和调用。
而Agent采用的是 AI 自我生成GUI、按钮逻辑和业务API逻辑调用等。

Agent 还有单Agent 、多代理Agent、多模态Agent等不同的Agent组合和内容。

目前Agent 被认为是AGI（智能机器人）的必经之路。这又是另一个高深的话题了，挖个坑先吧。
另外Agent 和 LLM 应用知识库和自动化执行是一个更复杂的逻辑，我们后面开专门篇章再细说。