大模型的探索与实践-课程笔记(十):机器学习发展史
第一部分机器学习的“三起两落”发展史在这个发展史中每一次神经网络的崛起都伴随着“算力/数据”的支持而每一次跌落都源于“可解释性”与“应用局限”的限制。1. 第一起与第一落 (1950s - 1960s)感知机与符号主义高光时刻1956年达特茅斯会议首次提出“AI”概念诞生了一阶感知机 (Perceptron)模型可视为一层的单层神经网络ysign(wxb)。局限与跌落异或问题 (XOR)学者证明了单层感知机无法解决非线性可分的异或问题能力极度受限。缺乏训练方法当时尚未发明针对多层神经网络的有效训练算法。学术转向学界此时全面转向符号主义 (Symbolic AI)和专家系统强调基于规则进行推导黑盒不被信任白盒规则当道。这演变成了至今仍火热的Formal Language形式语言研究下文有详述。2. 第二起与第二落 (1970s - 2000s)BP算法与 SVM 的压制高光复苏由于脑神经科学/仿生学的启发多层感知机 (MLP)受到关注。Hinton 推动了反向传播算法 (Back Propagation, BP / 链式法则)的普及。应用落地两到三层的浅层神经网络在MNIST 手写数字识别任务上表现优异准确率冲破95%找到了第一个核心落地场景。跌落低谷算力遭遇严重瓶颈网络层数无法加深。传统 ML 巅峰1990年代至2000年代以SVM支持向量机、决策树以及AdaBoost为代表的基于严格数学推导的模型全面屠榜。神经网络再次沦为坐冷板凳的 Baseline基线模型。3. 第三起 (2010s中期)深度的觉醒与算力爆发转折点在于斯坦福李飞飞团队发起的百万级图片分类挑战赛ImageNet。2012年 AlexNetHinton团队的 AlexNet 采用了7-8层网络准确率断崖式超越所有传统机器视觉方法正式开启深度学习 (Deep Learning)纪元。残差网络 (ResNet)何恺明团队提出加入了Residual Block残差层一举解决了深层网络的梯度消失问题将网络做到了101层甚至更深性能首次超越人类基准。4. 腾飞与险些发生的“第三落” (2016 - 2021)破圈起飞 (2016)DeepMind 打造的AlphaGo利用历史棋谱击败李世石进化版AlphaZero采用零知识学习自我博弈击败柯洁。底层核心技术为强化学习 蒙特卡洛树搜索 (MCTS)。人工智能概念席卷社会。险遭冰点 (2018-2021)这三年间神经网络的商业落地极度受限除了商汤/旷视等主打的“人脸识别”和一些打游戏Agent外迟迟没有新突破。业界悲观呼喊 Party is over。续命之作直到 DeepMind 推出AlphaFold成功预测蛋白质折叠开创了AI for Science的先河勉强为行业续了一波命。5. 大模型时代的救场 (2022.12 至今)2022年底 ChatGPT 的横空出世彻底将处于瓶颈期的机器学习重新拉回爆发期。底层架构的趋同Transformer为主让各家大厂的竞争重点从“卷模型结构”演变成了“卷高质量数据与算力”。第二部分前沿学术方向衍生探索Formal Language (形式语言) 与 LLM 的结合背景大模型的本质是基于统计概率的“文字接龙”它并不真正懂逻辑因此常出现幻觉。研究方向人为建立一个严苛的“语言乌托邦规则空间”让所有输出必须符合这套 Formal Language 符号逻辑强制约束模型的推理路径。结论延展这也是为什么目前 LLM 在写代码 (Coding)任务上表现远超其他领域的原因——因为代码本身就是一种极其标准、0与1分明、带有强验证属性的 Formal Language。第三部分历史的重演结合前面讲到的“三起两落”发展史我们可以发现一个铁律每一次 AI 的停滞都是因为算法对算力和数据的需求超越了当时硬件与现实世界的物理极限。如今的大模型虽然处于巅峰但前沿学界已经开始担忧“第四次跌落”的潜在可能1. 算力墙与极客路线的崛起随着 Transformer 架构参数量逼近万亿级别摩尔定律逐渐失效导致了极高的训练成本壁垒。为了打破算力墙学界的演进方向开始从“如何把模型做大”转向“如何把模型做小”。例如使用MoE混合专家架构在推理时只激活部分网络从而在不增加算力负担的前提下保持高智商或是深耕模型量化与蒸馏技术将千亿参数的庞然大物压缩到能在消费级显卡甚至手机端运行。2. 数据荒与“合成数据”的救场大模型之所以强大是因为它几乎看遍了人类互联网 30 年积累的高质量文本。但据前沿学术机构预测高质量的人类语料即将耗尽。为了打破这一瓶颈当前的学术焦点正在转向“AI 教 AI”——利用现有的强大模型生成遵循极高逻辑标准的合成数据再用这些数据去训练新一代模型比如 AlphaZero 当年抛弃人类历史棋谱采用自我对弈数据就是极其成功的先例。第四部分下一代范式革命——从大模型到 AI Agent了解了 Formal Language 如何给不可解释的 LLM 戴上“镣铐”后这就引申出了当前学界与产业界正在爆发的下一个大趋势AI Agent人工智能体。LLM 的本质只是被困在服务器里的“大脑”它只会纸上谈兵。而 Agent 的核心理念是LLM 大脑 记忆机制 工具调用Tools / APIs。落地形态如果遇到一道复杂的数学应用题Agent 不再像单纯的大模型那样靠统计概率去瞎猜而是自主写一段 Python 代码调用外部解释器运行得出绝对正确的结果再把结果组合成自然语言返回给用户。终极愿景从“Copilot副驾驶/代码填充助手”走向完全自主的“Auto-Agent自动处理机器”。结合前面提到的强化学习Reinforcement Learning未来的 Agent 将能够在不断试错中学会操作复杂的计算机软件甚至控制物理世界的机器人。工具与模型梳理工具分类工具/模型名称核心功能与应用领域亮点/启发经典模型架构AlexNet / ResNet计算机视觉主流底层框架处理图像分类特征提取。ResNet 提供的“残差结构Residual”直击痛点证明了在模型设计中解决底层数学问题如梯度消失才是参数规模扩大的前提。强化学习决策AlphaGo / AlphaZero棋盘博弈智能体协议。核心算法为蒙特卡洛树搜索(MCTS)与深度学习结合。Zero版本摒弃了人类历史棋谱证明了在规则明确的封闭环境内“自我对弈零知识学习”能够打破人类先验经验的局限。AI for ScienceAlphaFold (DeepMind)准确预测蛋白质的三维折叠结构。解决了生物学界公认的“不可能完成的任务”将大模型的计算能力从泛文娱/CV引向了硬核科学底座。PPT/外脑生成NotebookLM (回顾)根据长文本/论文自主理解多模态逻辑并生成带示意图的 PPT。展示了当前大模型在“多轮复杂推理”上的能力能将高门槛论文“降维”转化为直观的图文呈现极具生产力。模型厂商生态中国大模型六小龙提到了 Kimi / 智谱 / MiniMax / 零一万物 等雏形厂商预热下节课内容大模型时代的壁垒不再只是学术巧思而是高质量数据积累和千卡算力堆叠。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2557809.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!