Transformer底层逻辑：被低估的残差连接，小白也能看懂的大模型秘密（收藏版）

news2026/4/30 3:35:34

本文深入解析Transformer模型中的残差连接从其起源ResNet谈起阐述其在解决梯度消失、提升网络深度方面的关键作用。文章对比了传统网络与残差网络的差异揭示了残差连接如何通过“加法操作”实现信息保真与梯度稳定并探讨了在极深网络中mHC等新型技术的演进。残差连接不仅是技术层面的设计更体现了信息传递与系统稳定性的底层哲学是理解大模型能力的关键。一个被低估的设计有时候觉得看模型架构就好像在拆一个高达当我拆 Transformer 拆到残差连接的时候我停下来想了一会儿。原因很简单它太不起眼了。比起 Self-Attention 那套“每个词注意到所有词”的惊艳直觉比起多头注意力那种并行计算的优雅残差连接看起来就像一个偷懒的加法操作y F(x) x。把输入绕个圈加回来(如下图所示的addNorm就是残差连接)没了。Transformer功能架构中残差所处的位置但 Transformer 如果没有这个加法就像高楼没有地基上面再漂亮的 Attention 结构也堆不了几层。说到底这可能是深度学习里最被低估的一个设计。关于抄近道的故事说起来这残差连接最早不是为 Transformer 设计的。它来自 2015 年的 ResNet残差网络那一年 ImageNet 竞赛上一个 152 层的网络震惊了计算机视觉界。为什么 152 层是件大事因为在那之前网络一深就废。道理很朴素你把 10 层网络叠成 50 层按理说更深的网络表达能力更强效果应该更好吧但实际训练时发现50 层的误差反而比 20 层的还大。不是过拟合就是单纯训不动。问题出在一个叫梯度消失的现象上。想象一下你在一栋 50 层的大楼里喊话正向传播信息一层层传上去。然后你要从 50 楼跑下来告诉每一层怎么调整反向传播。但每下一层你的声音就弱一分等到一楼的时候几乎听不见了。这就是梯度消失越靠前的层学到的东西越少。怎么解决ResNet 的答案简单到让人怀疑给每层旁边修一条直达通道。传统网络和带残差连接网络的区别这样一来梯度信号可以从输出层直接跳回输入层完全绕过中间的弯弯绕绕。数学上反向传播时梯度路径上多了一个1——这个1就是那条「高速公路」。残差连接到底在做什么公式极其简单y F(x) x x是输入F(x) 是经过 Attention 或 Feed Forward 变换后的结果。但这里的哲学很有意思。传统网络的思路是你要学会从输入到输出的完整映射。就像一个学生要从零开始学做一道菜每一个步骤都不能错。残差连接的思路是你只需要学会输入和输出之间的差距。学生只需要关注自己这一层的“贡献”原材料已经在那里了你往上面加料就行。这种设计的好处是什么梯度有了专用通道。前面说了反向传播时梯度路径上有个1相当于给梯度修了一条紧急通道不管中间变换多复杂梯度都能直达前层。网络层可以“偷懒”。如果某一层发现自己不太需要改变什么比如某个特征已经足够好了它可以直接学习到输出几乎等于输入。网络不会因为“必须做点什么”而引入噪声。信息不容易串味。Attention 负责捕捉词之间的交互关系残差连接保留了原始输入信息。两者相加各司其职——Attention 做“精加工”残差通道做“保真”。我自己的理解残差连接像极了代码里的immutable update模式——你不修改原始数据而是在原始数据的基础上叠加增量最终得到一个新旧融合的结果。这种模式在复杂系统中天然稳定因为它保证了原始信息通路始终存在不会因为中间处理而丢失。Transformer 里的两条传送带如果你打开一个标准的 Transformer Encoder 层你会看到两条残差连接一条在 Attention 子层之后一条在 Feed Forward 子层之后正如开头那张经典架构图。可以看到残差连接在架构中的作用明显残差①把原始输入和 Attention 输出相加。Attention 负责建立 token 之间的语义关系残差负责我记得你本来长什么样。两者加起来就是从原始词义出发带上上下文信息。残差②把 Attention 子层的输出和 FFN 输出相加。FFN 负责对每个 token 做独立变换残差负责“我记得上下文关系”。两者加起来就是在已知上下文的基础上做特征增强。还有一点值得注意现代 TransformerGPT、LLaMA 系列普遍用了Pre-LayerNorm——把 LayerNorm 放在子层之前而不是之后。这个设计改动和残差连接关系很大。Pre-LN 让残差路径上的信息流动更干净不受 Normalization 干扰训练更稳定。残差连接的“天花板”与 mHC残差连接解决了能不能堆深的问题但新的问题又来了当模型堆到几千亿参数时简单的加法还够用吗DeepSeek 的研究者们发现了一个微妙的现象在极深网络中传统残差连接的自由流动模式反而成了问题。信息每经过一层虽然名义上保留了恒等路径但几百层的累积效应下有效信息被逐层稀释——有点像信号在长电缆中的衰减虽然理论上有直连通道但实际传输中仍然有损耗。他们提出了 mHc(流形约束超连接)思路很巧妙传统残差连接是一个简单的加法mHC 给这个加法加了一个约束强制残差路径上的变换保持某种数学结构具体来说他们用 Sinkhorn-Knopp 算法迭代 20 次把残差投影矩阵约束到接近双随机矩阵行和列的和都接近 1达到 99.6% 的约束度。这样做的好处是信息在残差路径上流动时不会因为不同维度的权重差异而产生扭曲。这相当于在“高速公路”上加了一道护栏车可以跑得很快但不会偏出车道。KimiMoonshot AI也在探索类似的方向用可学习的注意力权重来替代简单加法。这说明一个趋势残差连接这个看似已经解决的问题在大模型时代又被重新打开了。一点真实的感受了解了残差连接也切实理解了这种思想在是深度学习里也是必要的存在。Attention 让人兴奋因为它直觉上就聪明“让每个词关注所有相关词一听就合理。但残差连接给人的第一印象是这也太简单了吧简单到让人怀疑它是否真的有用。然而正是这种简单折射出了一个深层道理一个系统要想变得复杂必须先解决最基础的信息传递问题。没有残差连接Transformer 堆不到那么多层也就不可能通过深度来获得表达能力。没有恒等映射路径反向传播在 50 层的网络中就是纸上谈兵。这让我想起计算机科学里一个经典的设计原则——不要打破抽象层。每一层只做自己的事然后把结果传给下一层。残差连接本质上就是在保证无论中间层做了多复杂的变换原始信息始终有一条不受干扰的通道。这和分离关注点Separation of Concerns的哲学如出一辙。总结一些值得记住的点残差连接的核心公式输入加变换输出网络只需学习变化量解决梯度消失反向传播路径上多了一个1梯度可以直接跳过中间变换层Transformer 中有两条一条在 Attention 子层后、一条在 Feed Forward 子层后Pre-LayerNorm 是黄金搭档把 Norm 移到子层前让残差路径更干净mHC 是下一代演进给残差路径加上流形约束让千亿参数模型的训练更稳定本质是信息保真在复杂系统中保留原始信息通路是稳定性的根基最后对于正在迷茫择业、想转行提升或是刚入门的程序员、编程小白来说有一个问题几乎人人都在问未来10年什么领域的职业发展潜力最大答案只有一个人工智能尤其是大模型方向当下人工智能行业正处于爆发式增长期其中大模型相关岗位更是供不应求薪资待遇直接拉满——字节跳动作为AI领域的头部玩家给硕士毕业的优质AI人才含大模型相关方向开出的月基础工资高达5万—6万元即便是非“人才计划”的普通应聘者月基础工资也能稳定在4万元左右。再看阿里、腾讯两大互联网大厂非“人才计划”的AI相关岗位应聘者月基础工资也约有3万元远超其他行业同资历岗位的薪资水平对于程序员、小白来说无疑是绝佳的转型和提升赛道。对于想入局大模型、抢占未来10年行业红利的程序员和小白来说现在正是最好的学习时机行业缺口大、大厂需求旺、薪资天花板高只要找准学习方向稳步提升技能就能轻松摆脱“低薪困境”抓住AI时代的职业机遇。如果你还不知道从何开始我自己整理一套全网最全最细的大模型零基础教程我也是一路自学走过来的很清楚小白前期学习的痛楚你要是没有方向还没有好的资源根本学不到东西下面是我整理的大模型学习资源希望能帮到你。扫码免费领取全部内容1、大模型学习路线2、从0到进阶大模型学习视频教程从入门到进阶这里都有跟着老师学习事半功倍。3、入门必看大模型学习书籍文档.pdf书面上的技术书籍确实太多了这些是我精选出来的还有很多不在图里4、AI大模型最新行业报告2026最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。5、面试试题/经验【大厂 AI 岗位面经分享107 道】【AI 大模型面试真题102 道】【LLMs 面试真题97 道】6、大模型项目实战配套源码适用人群四阶段学习规划共90天可落地执行第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…扫码免费领取全部内容3、这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2564362.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！