【AI大模型】Transformer 架构是什么？关键模块都有哪些

news2026/5/15 22:06:25

【AI大模型】Transformer 架构是什么关键模块都有哪些Transformer 出自 2017 年经典论文Attention Is All You Need它完全抛弃 RNN 结构仅靠注意力前馈网络实现序列建模是现在 GPT、BERT、ViT、T5 等所有大模型的基础架构。下面用清晰结构通俗解释讲完整 Transformer。一、Transformer 整体架构标准 Transformer 分为两大块Encoder编码器→ 理解输入如理解一句话Decoder解码器→ 生成输出如翻译、写作文整体结构简图输入序列 → 嵌入位置编码 → Encoder N层 → 编码器输出 ↓ 解码器输入 → 嵌入位置编码 → Decoder N层 → 线性Softmax → 输出序列二、Encoder 里面有什么6层每层固定结构每层 Encoder 2 个核心模块残差层归一化1、Multi-Head Self-Attention多头自注意力让每个词全局看所有词多个头从不同角度捕捉语义关系支持并行计算2、Feed Forward NetworkFFN前馈网络两层线性变换激活函数原论文用 ReLU现在多用 GELU/SiLULinear → Activation → Linear作用对每个位置单独做特征增强不依赖其他位置。3、残差连接Residual Connection公式x x sublayer(x)防止深度网络梯度消失让模型能堆很深。4、层归一化Layer Normalization稳定训练加速收敛。三、Decoder 里面有什么比 Encoder 多一个注意力每层 Decoder 3 个模块残差归一化1、Masked Multi-Head Self-Attention掩码自注意力关键看不到未来的词生成第 i 个词时只能看 1i 词不能看 i1…否则模型直接“抄答案”无法训练。2、Encoder-Decoder Attention交叉注意力解码器去“看”编码器的输出相当于翻译时生成法语词时重点看中文的哪些字对话时生成回答时重点关注问题的关键词3、Feed Forward Network同 Encoder。四、Transformer 中除了 Self-Attention 之外的关键模块这部分最容易被忽略但缺一不可1.Positional Encoding 位置编码Self-Attention 本身没有顺序概念打乱词的顺序输出不变。所以必须手动加入位置信息。公式PE(pos, 2i) sin(pos / 10000^(2i/d_model)) PE(pos, 2i1) cos(pos / 10000^(2i/d_model))2.Embedding 词嵌入把单词/Token 转为 d_model 维向量。3.Mask 掩码机制Padding Mask补齐的无效位置不参与计算Look-ahead MaskDecoder 遮挡未来位置4.残差层归一化没有它们深层 Transformer 根本训不动。5.最后的 Linear Softmax把模型输出映射到词表大小输出概率分布生成下一个词。Transformer 位置编码多头自注意力交叉注意力掩码前馈网络残差连接层归一化线性输出Self-Attention 只是核心部件不是全部。五、Encoder-only / Decoder-only / Encoder-Decoder 三类模型1. Encoder-only理解类BERT、RoBERTa、ALBERT任务分类、抽取、阅读理解2. Decoder-only生成类GPT 系列、LLaMA、Qwen、Mistral任务对话、写作、续写、代码生成3. Encoder-Decoder翻译/摘要T5、BART任务机器翻译、文本摘要

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2616194.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！