1.1 AI技术全景图：从传统ML到大模型

news2026/3/28 15:02:31

AI技术全景图从传统ML到大模型本文适合谁完全没有AI背景的读者。读完这篇你会知道AI/机器学习/深度学习/大模型这几个词是什么关系以及你将要学的东西在整个AI世界里处于什么位置。AI发展经历了三个时代——本文带你把这段历史串起来从中理解为什么我们现在能用ChatGPT这样的工具。本文阅读时间约15分钟为什么AI突然这么火2022年11月ChatGPT上线。上线5天用户突破100万。上线两个月月活用户破1亿——这是人类历史上增长最快的消费级应用。很多人第一次跟它聊天时的反应是这不是我认知里的机器。它能写诗、能改代码、能解释复杂的法律条文还会反问你你是什么意思。但ChatGPT不是从天而降的。在它出现之前AI已经悄悄积累了几十年。理解这段历史你才能真正明白AI现在能做什么不能做什么以及你学的这门课在整个图谱里处于什么位置。AI发展的三个时代图1.1AI发展的三个时代——从专家系统到机器学习再到深度学习大模型AI技术的演进经历了三个截然不同的阶段。每个时代都解决了前一个时代的核心问题同时也带来了新的问题。理解这三个时代你就理解了现代AI技术的来龙去脉。第一个时代两条路都走进了死胡同1950年代至1980年代AI这个词从1955年就开始酝酿了。计算机科学家约翰·麦卡锡John McCarthy在1955年提交了一份研讨会提案第一次使用了人工智能这个词。1956年他在美国达特茅斯学院主持召开了那场著名的研讨会正式开启了AI作为一个研究领域的历史。这个时代科学家们同时尝试了两条完全不同的路最终都碰了壁。路线一专家系统——把规则写进去最直觉的想法把人类专家的知识一条一条写进计算机机器就能变聪明。比如医疗诊断系统如果发烧 38.5°C 且咳嗽是 → 可能是流感如果发烧 39°C 且皮疹是 → 可能是麻疹 ...在规则清晰的场景下确实有效。但问题很快暴露写规则的成本无限高而且很多知识根本无法用规则表达。你能告诉我识别人脸的规则是什么吗你认识你朋友的脸但你能把这个认识用语言描述出来吗规则路线碰了墙。路线二早期神经网络——模仿大脑同期另一批科学家走了完全不同的路既然大脑能学习就造一个人工大脑。1943年神经生理学家 McCulloch 和数学家 Pitts 发表论文第一次用数学公式描述神经元的工作方式1950年图灵发表《计算机器与智能》提出图灵测试——机器能不能思考1951年Minsky 和 Edmunds 建造了世界上第一台神经网络计算机 SNARC只有40个神经元1957年心理学家 Frank Rosenblatt 发明感知器Perceptron——最早的人工神经网络之一1966年第一个聊天机器人 ELIZA 诞生能用规则模拟简单对话神经网络路线看起来很有希望但也碰了墙当时的计算机算力太弱训练哪怕几十个神经元都要耗费大量时间根本无法扩展到实用规模。1969年Minsky 和 Papert 出版了一本批评感知器局限性的著作进一步打击了这条路线的研究热情。两条路都走进死胡同AI寒冬1973年英国政府的一份报告指出AI研究未能兑现承诺大幅削减资助——这是第一次AI寒冬。1987年前后第二次寒冬到来。研究经费大幅削减研究者转行项目关停。这个时代的教训规则写不完神经网络的想法是对的但算力不够。第二个时代机器学习1980年代末至2010年代这个时代在解决什么问题规则写不完那就让机器自己从数据里找规律。寒冬之后一批科学家换了思路与其让人来写规则不如让机器自己从数据里学习。这就是机器学习的核心思想。按照AWS亚马逊云服务的定义机器学习是一种无需明确指令即可执行数据分析任务的人工智能。这个定义很关键。注意无需明确指令——不用程序员手写规则机器自己从数据里找规律。工作方式的变化专家系统程序员写规则 → 机器执行规则 → 得出结论机器学习给机器大量数据 → 机器自己找规律 → 得出结论识别猫不需要写规则。给机器看100万张猫的照片、100万张不是猫的照片让它自己学——学完之后它就能认猫了。机器学习的主要类型按照AWS的分类机器学习分为以下几种主要类型监督学习给数据打标签告诉机器每个样本的正确答案是什么。比如给照片标注猫或狗然后让机器学习。适合分类和预测任务。无监督学习不给标签让机器自己发现数据里的规律。比如把100万个用户按行为分成几组——你不需要事先定义这组用户是什么类型的。适合聚类和异常检测。半监督学习只有一部分数据有标签打标签很贵结合有标签和无标签的数据来学习。强化学习不通过数据学习而是通过试错奖励来学习——做对了给奖励做错了给惩罚。后面会专门讲。深度学习机器学习的一个子集用多层神经网络来学习。后面专门介绍。这套方法管用。垃圾邮件过滤、信用评分、股价预测、推荐系统……机器学习在2000年代开始渗透到生活的各个角落。这个时代的两个里程碑1997年IBM 超级计算机深蓝击败国际象棋世界冠军卡斯帕罗夫——机器第一次在复杂智力游戏中战胜人类顶尖选手注意深蓝用的是穷举规则不是机器学习但它标志着公众对 AI 能力认知的一次重大转变2011年IBM Watson 赢得美国综艺节目《危险边缘》Apple 推出 Siri——AI 开始真正进入普通人的生活但传统机器学习也有天花板只能处理结构化数据——能整齐放进Excel表格的数字和类别。对图片、声音、文字这类复杂数据效果依然有限。需要特征工程——在把数据喂给机器之前程序员需要手动把原始数据转换成有意义的特征比如把用户注册时间转成注册天数、是否是周末等等。这很费人力而且需要领域专业知识。在某些复杂任务上有性能天花板——比如图像识别传统机器学习在2012年之前的最好成绩还是远远落后于人类。这个时代引入了什么新问题特征工程成本高复杂数据图像/语音/文本处理能力不足。第三个时代深度学习大模型2012年至今这个时代在解决什么问题不需要手工提取特征让机器从原始数据直接学习。2012年一件事改变了一切。ImageNet是一个图像识别比赛每年全球顶尖团队参加。那一年一个叫AlexNet的深度学习模型参赛错误率从26%直接降到15%——领先第二名将近11个百分点。所有人都惊了。深度学习时代正式开启。按照AWS的定义深度学习是一种AI方法用于教计算机以受人脑启发的方式处理数据。它的核心是多层神经网络通过大量数据自动学习特征——不需要人工提取。为什么2012年是分水岭有两件事同时发生一是AlexNet证明了深度神经网络在图像识别上远超传统方法二是研究人员已经发现2009年的论文指出GPU在机器学习上远优于CPU——GPU几千个小核心可以并行做矩阵计算训练神经网络的速度是CPU的几十倍。算法突破硬件提速两个条件同时成熟深度学习才真正爆发。之后十年深度学习一路攻城略地2016年AlphaGo击败围棋世界冠军李世石深度学习强化学习的组合2017年Google Brain团队发表论文《Attention Is All You Need》提出Transformer架构奠定了大模型的基础2018年BERT出现机器开始真正理解语言语境2020年GPT-3展示了规模的力量——参数量够大什么都会一点2022年ChatGPT让AI走进千家万户2024年底推理模型o1、DeepSeek-R1出现AI开始边想边说这个时代带来的新问题需要海量数据和昂贵的GPU算力模型像黑盒很难解释决策过程会出现幻觉编造不存在的事实。AI、机器学习、深度学习是什么关系很多人搞混这三个词其实是包含关系图1.1AI、机器学习、深度学习与大语言模型的层级包含关系AI人工智能最大的概念让机器表现出智能的所有方法 └── 机器学习Machine LearningML让机器从数据中学习的方法 ├── 传统机器学习决策树、线性回归、SVM等经典算法 └── 深度学习Deep Learning多层神经网络 └── 大语言模型LLM深度学习在文本领域的极致形态一个简单的家族比喻AI是一个大家族机器学习是这个家族里目前最能干的儿子深度学习是这个儿子的核心绝技大语言模型是这个绝技在语言领域的终极应用。注意这是包含关系不是替代关系。传统机器学习没有过时在很多场景下它仍然是最好的选择——下面会说为什么。传统机器学习能做什么什么是传统机器学习相对于深度学习传统ML指的是2010年代之前就成熟的一批算法比如决策树、线性回归、SVM等。它们不需要大量数据和GPU适合处理可以整齐放进Excel的结构化数据有固定列和行的数据和图片、文章这种非结构化数据相对。传统ML最擅长的是结构化数据的预测任务任务类型例子常用算法分类预测类别垃圾邮件识别、疾病诊断、欺诈检测逻辑回归、决策树、SVM回归预测数值房价预测、销量预测、用户流失概率线性回归、随机森林、XGBoost聚类发现分组用户分群、异常检测、话题聚类K-Means、DBSCAN传统ML的优势可解释性强——能说清楚为什么做这个判断。银行拒绝贷款需要向监管部门解释原因必须用传统ML。数据量小也能用——不需要百万级样本训练快、部署成本低——在普通CPU上就能跑不需要GPU不会幻觉——预测结果可信不会编造传统ML的局限需要特征工程——原始数据需要手动处理成有意义的特征费时费力处理不了非结构化数据——图片、语音、文字这类数据效果差在复杂任务上有性能天花板什么时候还在用传统ML很多人以为有了大模型传统ML就没用了。其实不是。银行判断贷款是否通过用的是传统ML——需要可解释性监管要求清楚说明拒贷原因。电商预测明天的销量用的也是传统ML——数据是结构化的历史销售表格用大模型反而更贵更慢。工厂设备故障预测用传统ML就够了——传感器数据是结构化的而且数据量没有互联网那么大。选哪个看场景不是看哪个更新。深度学习突破了什么2012年深度学习在图像识别比赛上碾压传统方法开启了AI新时代。深度学习解决了传统ML的两个核心痛点自动学习特征不需要人工设计特征神经网络自己从原始数据像素、声波、字符中提取有用信息处理非结构化数据图像、语音、文本都能处理而且越来越好深度学习的代表成就图像识别准确率超过人类语音识别让Siri、语音输入变得实用机器翻译Google翻译质量飞跃围棋AIAlphaGo击败世界冠军代价是什么需要大量数据——通常百万级以上才能训练出好模型需要GPU——专门做大规模并行计算的芯片后面会专门解释为什么可解释性差——模型像黑盒很难解释为什么做这个判断训练成本高——训练一个大模型电费就要几百万美元大语言模型是什么2017年Google发布了Transformer架构。这个架构成为了后来所有大语言模型的基础。Transformer是什么把它理解为一种让神经网络读文章时能同时关注所有词之间关系的特殊设计。在它之前模型只能一个词一个词地顺序处理读到后面容易忘记前面的内容。Transformer让模型可以一次性看整段话理解能力大幅提升。按照AWS的定义LLM大语言模型是基于大量数据进行预训练的超大型深度学习模型。核心训练目标预测下一个token文本的基本单位大约相当于半个到一个词。大模型的发展时间线2018年BERTGoogle——第一个真正理解上下文语义的语言模型2020年GPT-3OpenAI——1750亿参数展示了规模的力量2022年ChatGPT——让AI对话走进大众视野2023年GPT-4、Claude 2、Llama 2——能力大幅提升开源模型崛起2024年Claude 3、Gemini 1.5、DeepSeek V2——长上下文、多模态成为标配2025年至今推理模型o1/o3、DeepSeek-R1、Agent能力成为新战场大模型的本质下一个词预测机器这听起来可能让你失望ChatGPT的本质是一个预测下一个词是什么的机器。给它今天天气很它预测下一个词最可能是好。再给它今天天气很好它预测下一个词最可能是。就这样一个词一个词地生成直到说完。那为什么它看起来这么聪明因为要准确预测下一个词它必须真正理解上下文的含义。要完成写一篇分析文章这个任务它必须理解什么是分析、什么是文章结构、什么是逻辑连贯。这些能力在预测下一个词的训练目标下被迫在海量文本中学出来了。这是大语言模型最神奇的地方一个看似简单的训练目标在足够大的数据和模型规模下涌现出了复杂的智能行为。大模型为什么会幻觉图1.2大模型幻觉的产生原因——预测机器的天然局限以及RAG和工具调用如何缓解你可能听说过大模型会一本正经地胡说八道——编造不存在的论文引用、说错历史事件的时间、给出错误的计算结果、把两个真实人物的信息混在一起。这叫幻觉Hallucination是大模型的天然缺陷。按照AWS的定义幻觉指的是LLM在无答案时提供虚假信息的现象。更准确地说是模型生成了看起来合理但实际上不正确或不存在的内容。为什么会这样原因就在它的本质它是一个预测机器训练目标是生成在统计上最可能出现的下一个词而不是保证这句话是真的。当它不知道某件事时它不会说我不知道——它会生成一个听起来很像正确答案的内容因为这正是训练目标所鼓励的。幻觉会导致什么实际问题引用一篇根本不存在的学术论文而且作者名和期刊名都像模像样把某人的履历和另一个同名人物混淆数学计算出错但用充满自信的语气表达错误答案代码里引用一个不存在的API函数这也是为什么大模型不能单独用于需要高精度的场景法律文书、医疗诊断、财务数据需要配合RAG检索增强让模型先查资料再回答、工具调用让模型调用计算器和数据库等技术来弥补这个缺陷。推理模型是什么2024年底OpenAI发布了o1开创了一类新的模型——推理模型。这是一个值得单独介绍的重要发展。普通大模型 vs 推理模型的区别普通大模型是直接回答——你问它想一下立刻说。这个想一下的过程很短本质上还是在做下一个词的预测。推理模型在回答前会先做大量的内部推理步骤——就像人类解难题时先打草稿列出思路、验证每一步、发现错误再修正最后才给出答案。一个生活类比普通大模型像一个博学多才的人你问他问题他凭直觉和经验当场给你答案。推理模型像一个认真的工程师你给他一道难题他掏出草稿纸推导了十几步检查了两遍然后告诉你答案。推理模型擅长什么复杂数学推理能解竞赛级别的数学题多步逻辑推理代码调试和算法设计需要深度分析的复杂问题主要推理模型截至2026年3月OpenAIo1、o3系列DeepSeekDeepSeek-R1开源性能接近o1AnthropicClaude 3.7 Sonnet具备扩展思考模式代价是什么速度更慢——需要大量思考时间成本更高——每次推理消耗更多计算资源并非所有场景都需要——简单的问答用普通大模型更划算强化学习的位置强化学习RL是另一个重要分支。按照AWS的定义强化学习是一种ML技术可训练软件做出决策以获得最佳结果。核心机制是智能体在环境中行动做对了获得奖励做错了获得惩罚通过不断试错学会最优策略。类比就像训狗。狗坐下了给零食奖励乱跑了不给惩罚慢慢学会听指令。和AI开发的关系AlphaGo用强化学习学会下棋——自我对弈赢了就是奖励ChatGPT用RLHF基于人类反馈的强化学习学会好好说话——让人类给模型回答打分模型学会生成人类喜欢的回答Agent系统借鉴强化学习的感知-行动-反馈循环做决策下一篇文章会专门讲强化学习。现在的AI格局技术适用场景代表工具传统ML结构化数据预测表格数据sklearn、XGBoost深度学习图像/语音/文本理解PyTorch、TensorFlow大语言模型文本理解与生成、对话、推理GPT-4o、Claude、DeepSeek、Qwen多模态模型图文音视频混合理解GPT-4o、Gemini、Claude 3推理模型复杂逻辑推理、数学、代码o3、DeepSeek-R1对Agent开发者意味着什么作为Agent开发者你主要和大语言模型打交道。但了解整个图谱有实际用处选型决策某个需求用LLM还是传统ML更合适预测用户流失用传统ML更便宜理解用户意图用LLM更准确理解局限LLM为什么会幻觉、为什么不能精确计算——知道这些你才能设计出靠谱的系统选对模型简单问答用普通大模型复杂推理任务用推理模型降低成本的同时保证质量团队协作和算法团队协作时能听懂对方在说什么小结时代核心思路解决了什么遗留了什么专家系统手写规则简单、规则清晰的任务复杂任务规则无法穷举机器学习从数据学规律结构化数据的预测非结构化数据处理困难深度学习/大模型从原始数据端到端学习图像/语音/文本的复杂理解幻觉、可解释性差、成本高概念一句话AI让机器表现出智能的所有技术的总称机器学习AI的主流实现方式让机器从数据中找规律深度学习机器学习的子集用多层神经网络自动学特征大语言模型LLM深度学习在文本领域的极致形态本质是预测下一个词幻觉LLM生成看起来合理但实际不正确内容的现象推理模型会先打草稿再回答的新型LLM擅长复杂推理下一篇深入看深度学习的核心概念——神经网络到底在做什么。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2452855.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！