简单聊聊现在的AI
- 前言
 - 主要的AI模型和形式
 - LLM - Large Language Model(大语言模型)
 - BOT(机器人)
 - LAM - Large Action Models(大行动模型)
 - Agent(智能体)
 
- 结尾
 
前言
好久没回来写博客,这次回来。主要是身份的转变,在产品领域深耕了一些日子,目前的互联网变更的真的太快了。chatGPT才爆火多久? 一下子就行业爆了,传统互联网遭受到了前所未有的冲击。我们就简单聊聊 AI 吧。
主要的AI模型和形式
现在 AI 这个词语很火,各家互联网都在 AI 上造势,那 AI 是什么?
 常见 AI主要的模型和形式是:
- LLM - Large Language Model(大语言模型)
 - BOT - 机器人
 
目前新型出现的是:
- LAM - Large Action Models(大行动模型)
 - Agent - 智能体
 
LAM 可以被认为是LLM的升级和衍生。
 Agent 也可以被认为是BOT的衍生和升级版本。当然也有一些人也认为BOT和Agent就是一个东西。但在博主看来:Agent 比 BOT有更强的记忆能力和API工具使用。
下面我们一个一个简单了解一下。
LLM - Large Language Model(大语言模型)
LLM 是最目前最常见的 AI 的主体和形态,也称大型语言模型,是一种人工智能模型。
 通过人类 和 AI 进行自然语言对话,智能理解人类自然语言并作出反应。
 可以执行广泛的任务,包括文本总结、翻译、情感分析等等。
 目前各手机厂家发布的 助手 使用的大多以LLM作为内部核心,是一种对话式的流程。
 LLM现在已经发展的很厉害了,Chat GPT就是很好的例子。网上很多信息都完善了。
LLM的发展路径
但 纯正的 LLM 仅能支持语音对话,无法做其他更多的事情,比如生图等其他生成式的能力。
 那现在的 助手 里的生图或其他技能是怎么做到的呢?
 那就是我们接下来所说的BOT
BOT(机器人)
BOT 这个形态在 AI 的形式和传统的BOT是有区别的。
 传统的BOT 我们可以理解为:客服机器人这种,通过传统的产品形式去回答,交互。有一种呆呆的感觉。
 而 AI 下的BOT是一种全新的形态。它是以 LLM 作为 BOT灵魂。
 BOT的回答和能力是由LLM + 其他插件去完成的。
 一个BOT主要包含:
- Prompt(提示词)
 - 数据库 - 用户巩固这个LLM的人设和上下文信息
 - 知识库 - 这个BOT垂类的知识
 - 工作流 - 可以卸载PROMPT也可以额外处理,一般看平台
 - 用户变量 - 用户可用于替换prompt的关键部分
 - 技能或插件 - 这里的技能和prompt的工作能力不一样,这样更主要是插件的使用。
 
Prompt(提示词)主要包含:
- 机器人的人设 - 这就是给 LLM 大模型一个专项的角色
 - 工作任务 - LLM需要进行怎样的专项知识
 - 工作能力 - LLM需要怎样专项的技术和能力
 - 工作流程 - LLM如何一步一步进行工作
 - 注意事项 - 一些限制词
 - 其他
 
这是一个BOT创建平台上的一个快递查询助手BOT的示例
在这个平台例子里,左边就是prompt。右边有用到快递查询的插件和必应搜索的插件。
 另外我们还可以加入生图的模型加在插件上,那么这个BOT就有了生图的能力了。
LAM - Large Action Models(大行动模型)
什么是LAM,可以简单理解是LLM的升级版本或者说是衍生,LLM是意图识别后的文本回复。,而LAM是意图识别后的行为执行。
 举个例子:我需要AI帮我写一个 小红书 文本并发送
 LLM能做到的是:写一个小红书 文本
 而LAM能做到的是:打开小红书 - 点击笔记创建 - 生成一篇小红书 文本 - 然后点击发送。
 这就是LLM和LAM最本质的区别。
 
哎,大家有发现这个流程是不是很像:按键精灵。
 没错工作流程上,很像一个配置好的按键精灵一步一步去执行任务。
 但LAM高级在:他是以LLM为基底的。有理解人类自然语言的能力,所以他就有了一句话完成多个任务的活动。
当然你肯定发现了:现在很多车机的语言助手也能完成啊,一句话完成多个任务。
 但不同的是:这些语音指令是人为预设好的,描述词没靠上的话就无法完成这个任务了。
 而 LAM 只需要 这个应用的知识库,他就能帮你完成这个应用里的所有任务。这是 AI 自学习完成的。
LAM由一个值得注意的例子:Rabbit R1 和其的Rabbit OS,有兴趣的同学可以去看一下。这是LAM较为有参考和学习的例子。
Agent(智能体)
Agent 是目前 AI 发展的一个重要分支,网上可以找到很多AIPC、AIOS、AIXXX的,都会提到Agent这个概念。
Agent 是一种能够感知环境、进行决策和执行动作的智能实体。
 它是AIOS里应用程序体现。我们可以将其类比成:Android OS里的APP程序。
 它结合了(LLM + LAM + 记忆能力 + API或工具使用)
 
 上文也讲到博主认为Agent 和 BOT 不同
 主要是博主Agent 比 BOT 不同的地方 和强悍的点:
-  
记忆能力 -
记忆能力在于Agent有长期记忆的能力,能够长久记忆活动和上下文。这是BOT无法做到的,BOT只能完成单次对话的短时记忆,一般10轮对话后就会忘记前面的内容。 -  
执行能力 -
执行能力在于灵魂的不同,即LAM和LLM的不同。Agent的执行逻辑遵循着:P(感知)—> P(规划)—>A(行动)类似人类「做事情」的过程,Agent的核心功能,可以归纳为三个步骤的循环:感知(Perception)、规划(Planning)和行动(Action)。哪怕是对话式的 虚拟女友 这种,也有LAM的能力。 -  
容器 -
容器的不同在于:BOT的容器更倾向传统的GUI的开发,即还是有传统APP的方式进行开发,然后将AI 功能内嵌和调用。
而Agent采用的是 AI 自我生成GUI、按钮逻辑和业务API逻辑调用等。 
Agent 还有单Agent 、多代理Agent、多模态Agent等不同的Agent组合和内容。
目前Agent 被认为是AGI(智能机器人)的必经之路。这又是另一个高深的话题了,挖个坑先吧。
 另外Agent 和 LLM 应用知识库和自动化执行 是一个更复杂的逻辑,我们后面开专门篇章再细说。
结尾
好了,以上就本篇内容的所有内容。
 本文将的比较简略和简单,每一部分其实都可以继续深挖信息。
 当然还有文生文、文生图、文生视频、图生图、图生视频其他类型的模型。
 AI 是对我来说也是一个全新的知识领域,文中如果有不对的地方,希望各位大佬能提提,我继续学习。
LLM的发展路径



















