大模型全景图-GPT到多模态演进路线

news2026/4/12 2:57:48

大模型全景图从 GPT 到多模态我是怎么被一路卷过来的一张图理清大模型演进路线不再被各种名词绕晕从一个场景说起前段时间有个朋友问我“现在大模型这么多GPT、Claude、Gemini、文心、通义还有多模态、Agent、RAG 这些概念我都懵了到底该学哪个”说实话我一开始也是懵的。假设你也面临这样的情况老板让你调研大模型准备接入项目。你打开网页一搜好家伙GPT-3、GPT-4、GPT-4o、o1、o3… OpenAI 你家命名能不能有点规律文心一言、通义千问、讯飞星火、智谱清言… 国产模型也一大堆还有什么多模态、Agent、RAG、Function Calling名词多得记不住你心想“这不就是调个 API 嘛简单”结果一调研才发现每个模型特点不一样有的擅长聊天有的擅长代码有的能看图有的能画图价格还千差万别…好吧事情没那么简单。问题分析为啥大模型这么卷我梳理了一下发现不是大家故意搞复杂而是技术真的在快速迭代三个核心问题能力边界不清楚GPT-3 和 GPT-4 到底差在哪什么时候该用多模态模型自研模型还是调 API技术路线太多预训练、微调、Prompt Engineering、RAG怎么组合开源 vs 闭源怎么选演进速度太快上半年学的方案下半年可能就被新技术颠覆了今天的热门概念明天可能就被整合进基础模型看来得理一理大模型的演进脉络…方案设计说白了我们要解决的核心问题是建立对大模型技术演进的认知框架我把自己这两年被卷的经历捋了捋发现大模型的发展大概分了四个阶段四个时代GPT 时代2020-2022预训练提示工程“大力出奇迹”指令时代2022-2023InstructGPT、ChatGPT模型学会听人话多模态时代2023-2024GPT-4V、Gemini能看图、能听声音Agent 时代2024-至今工具调用、深度推理模型开始动手了每个时代的核心变化和选型逻辑都不一样咱们一个个看。实现过程Step 1: GPT 时代 —— “预训练 Prompt”那是 2020 年GPT-3 横空出世。当时的核心思路特别简单堆数据、堆参数、堆算力。# 伪代码GPT-3 时代的用法2020-2022defgpt3_era():# 核心预训练好的模型精心设计的 Promptmodelload_pretrained_gpt3()# 加载预训练模型# 关键Prompt Engineeringprompt 你是一个专业的文案写手。任务给一款运动耳机写广告文案。要求 - 突出降噪功能 - 语气年轻化 - 100字以内文案 # 模型只负责续写resultmodel.complete(prompt)returnresult这个时代的关键认知模型是续写机你要通过 Prompt 告诉它你是谁、要做什么Few-shot给几个例子能显著提升效果不用微调调 Prompt 就行Prompt Engineering局限性也很明显模型经常答非所问因为只是在续写对复杂指令理解能力差容易生成有害内容没有对齐人类价值观Step 2: 指令时代 —— “对齐人类意图”2022 年底ChatGPT 爆了。它不是简单的 GPT-3.5而是经过了指令微调Instruction Tuning和RLHF人类反馈强化学习。说白了就是教会模型听人话、说人话。# 伪代码ChatGPT 时代的用法2022-2023defchatgpt_era():# 核心对话式交互模型理解指令modelload_instruct_model()# 指令微调后的模型# 关键不用写复杂 Prompt直接说人话messages[{role:system,content:你是 helpful assistant},{role:user,content:写个运动耳机的广告文案突出降噪年轻化语气}]# 模型理解指令而不是简单续写resultmodel.chat(messages)returnresult这个时代的变化从续写变成对话交互方式更自然引入了 System Prompt可以设定角色和规则指令遵循能力大幅提升关键技术点SFT监督微调用高质量对话数据教模型怎么聊天RLHF让人类给回答打分模型学会什么回答是人类喜欢的选型建议如果你今天还在用基座模型Raw Model别折腾 Prompt 了直接用 Chat 版本国内模型文心、通义、Kimi都是这个时代的产物选谁主要看价格和效果Step 3: 多模态时代 —— “不止能看字”2023 年GPT-4V 发布模型开始能看图了。然后是 Gemini、Claude 3、Qwen-VL… 大模型进入眼睛耳朵时代。# 伪代码多模态时代的用法2023-2024defmultimodal_era():# 核心支持图文混合输入modelload_multimodal_model()# GPT-4V / Gemini / Qwen-VL# 关键可以传图片了messages[{role:user,content:[{type:text,text:这张图里的代码有什么 bug 吗},{type:image,image:screenshot.png}# 传图片]}]resultmodel.chat(messages)returnresult多模态解决了什么问题OCR 理解截图里的文字能识别还能理解含义视觉问答“这张图里的图表说明什么趋势”跨模态生成看图写文案、根据描述画图DALL-E、Midjourney技术实现思路文本 Token 图像 Token - 统一编码 - 解码生成图像被编码成类似文本的 Token和文本一起喂给 Transformer。什么时候必须用多模态处理截图、PDF、扫描件OCR理解一步到位需要理解 UI 界面比如自动化测试、RPA内容审核图文结合判断选型建议GPT-4V效果最好但贵Gemini Pro Vision性价比高Google 生态Qwen-VL / InternVL国产开源可私有化部署Step 4: Agent 时代 —— “模型开始动手了”2024 年大模型开始长手了。Function Calling、工具调用、AutoGPT、Devin… 模型不再只是说话而是能做事。# 伪代码Agent 时代的用法2024-至今defagent_era():# 核心模型可以调用工具了modelload_agent_model()# 支持 Function Calling 的模型# 定义工具让模型知道它能干什么tools[{name:search,description:搜索互联网信息,parameters:{query:string}},{name:calculator,description:数学计算,parameters:{expression:string}}]# 用户提问user_input今年 GDP 增长 5%去年是 100 万亿那今年是多少# 关键模型自己决定要不要用工具responsemodel.chat_with_tools(user_input,tools)ifresponse.tool_call:# 模型决定调用计算器resultcalculator(response.tool_call.parameters)# 把结果给模型让它继续回答finalmodel.chat(f计算结果是{result}请回答用户)returnfinalreturnresponse.contentAgent 时代的核心能力工具调用Function Calling模型知道什么时候该查数据库、调 API、算数学规划能力Planning把复杂任务拆成步骤一步步执行记忆Memory记住之前的对话和上下文典型应用AI 编程助手Cursor、GitHub Copilot、Devin不只是补代码还能改 Bug、跑测试智能客服能查订单、改地址、发起退款数据分析自动查数据、画图、写报告技术演进1.0: 单轮调用 - 模型决定用什么工具 2.0: 多轮 ReAct - 思考-行动-观察循环 3.0: 多 Agent 协作 - 多个模型分工合作选型建议如果你只是做聊天机器人没必要上 Agent反而复杂如果需要和现有系统对接查数据、调接口Function Calling 是刚需OpenAI、Claude 的工具调用能力最强国产模型通义、文心也在快速追赶踩坑记录梳理演进路线的过程中有几个常见误区记录一下坑 1: 盲目追新忽视场景现象听说 o1 推理能力强所有场景都换 o1问题o1 贵且慢简单场景用 GPT-4o mini 就够了解决方案简单任务 - 快模型GPT-4o mini、Claude Haiku复杂推理 - 慢模型o1、Claude Opus视觉任务 - 多模态模型系统对接 - 支持 Function Calling 的模型坑 2: 忽视上下文长度现象模型选对了但扔进去一篇长文档中间内容被遗忘问题不同模型上下文长度差异巨大4k - 128k - 2000k解决方案长文档处理 - 选长上下文模型Claude 200k、Gemini 1M、Kimi 200k超长文本 - 考虑 RAG检索增强生成别硬塞坑 3: 混淆基础模型和对话模型现象用了 Llama-3-70B发现效果还不如 GPT-3.5问题基础模型Base没经过指令微调不会对话解决方案用 Instruct/Chat 版本Llama-3-70B-Instruct或者自己微调成本高除非有特定需求坑 4: 私有化部署的幻觉现象“我们要私有化部署 GPT-4 级别的模型”问题70B 参数的模型需要 140G 显存成本吓死人解决方案小参数模型7B、13B 微调适合特定任务大参数模型70B除非真有数据安全要求否则调 API 更划算一张图看懂全景说了这么多画张图总结一下大模型演进路线2020-2024 GPT 时代指令时代多模态时代 Agent 时代 (2020-2022) (2022-2023) (2023-2024) (2024-至今) | | | | v v v v 预训练模型指令微调模型多模态模型 Agent 模型 Prompt Engineering 对话交互图文理解工具调用 RLHF 对齐跨模态生成规划执行代表模型: 代表模型: 代表模型: 代表模型: - GPT-3 - ChatGPT - GPT-4V - GPT-4o - BERT - Claude - Gemini Pro Vision - Claude 3.5 - T5 - 文心一言 - Qwen-VL - Devin - LLaMA - 通义千问 - InternVL - AutoGPT选型决策树你的场景是什么 | ├─- 简单文本任务问答、摘要 | └─- GPT-4o mini / Claude Haiku便宜够用 | ├─- 复杂推理代码、数学 | └─- o1 / Claude Opus / DeepSeek-R1 | ├─- 需要看图/看文档 | └─- GPT-4V / Gemini / Qwen-VL | ├─- 需要调工具/查数据库 | └─- 支持 Function Calling 的模型GPT-4o、Claude | └─- 数据敏感必须私有化 └─- Llama-3 / Qwen / ChatGLM开源模型微调小结今天我们梳理了大模型从 GPT 到多模态再到 Agent 的演进路线四个时代GPT 时代预训练 Prompt学会续写指令时代SFT RLHF学会听话多模态时代视觉编码学会看图Agent 时代工具调用学会动手选型逻辑不是越新越好是越适合越好简单任务别用重炮复杂任务别省成本多模态和 Agent 是刚需再上不是刚需别折腾当然这个路线还在快速演进中o1/o3 代表的深度推理可能是下一个方向端侧小模型手机本地跑也在快速发展多模态还在往视频理解进化写在最后大模型技术发展太快今天的新可能明天就旧了。我的建议是别追新追理解。理解了演进的逻辑就能快速适应变化。你在大模型选型中踩过哪些坑对哪个方向最感兴趣欢迎在评论区交流如果觉得有用给个吧咱们下篇见

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2508245.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！