收藏!小白程序员轻松入门大模型:Transformer架构详解与实战应用

news2026/5/1 14:08:21
本文详细解析了Transformer模型的背景、架构及其核心机制。首先指出RNN、LSTM在处理序列数据时的局限性进而介绍Transformer如何通过Attention机制解决这些问题。文章深入探讨了Transformer的输入嵌入与位置编码、三种注意力机制Self-Attention、Masked Self-Attention、Cross-Attention以及多头注意力机制并解释了残差连接和层归一化在模型中的作用。最后文章阐述了模型的输出过程为初学者提供了从理论到实践的全面指导适合想要学习大模型的程序员阅读收藏。1、Overview1.1 提出背景RNNLSTM相关算法只能从左向右依次计算或者从右向左依次计算这种机制带来了两个问题时间片 t 的计算依赖 t−1 时刻的计算结果这样限制了模型的并行能力顺序计算的过程中信息会丢失尽管LSTM等门机制的结构一定程度上缓解了 长期依赖 的问题但是对于特别长期的依赖现象,LSTM依旧无能为力。在2017年Google和多伦多大学发布了论文《Attention is All You Need》。Transformer的提出解决了上面两个问题首先它使用了Attention机制将序列中的任意两个位置之间的距离是缩小为一个常量其次它不是类似RNN的顺序结构因此具有更好的并行性符合现有的GPU框架。1.2 总体架构下图是论文《Attention is All You Need》中的Transformer总体架构图。为了解释说明本文重绘架构图具体如下这是一个典型的Encoder-Decoder架构每个Encoder包含N论文中为6个encoder每个Decoder包含N论文中为6个decoder:2、输入嵌入层位置编码Transformer输入需关注两个信息词的含义信息通过词嵌入对词编码提取含义信息词的位置信息通过位置编码提取词的位置信息2.1 输入输入有两种Encoder 输入全程固定不变一次性输入Decoder 输入逐步拼接已生成内容每一步把「上一步所有输出」当成 新输入直到输出结束符举例说明如下应用场景Encoder 固定输入Decoder 逐时间步输入模型当前步输出中英翻译原句I love cat译文我 爱 猫I、love、cat 步 1我 步 2 我爱 步 3 我 爱猫 步 4 我 爱 猫文本摘要原文今天天气很好适合出门散步摘要今日宜出行今天、天气、很好、适合、出门、散步 步 1今 步 2 今日 步 3 今 日宜 步 4 今 日 宜出行 步 5 今 日 宜出行问答对话问题11 等于几回答等于 21、、1、等于、几 步 1等 步 2 等于 步 3 等 于2 步 4 等 于22.2嵌入层2.2.1分词如下图所示先将输入文本切分为若干具有独立语义的最小单元即词元token再利用词汇表映射为词元ID序列。词表及生成过程词表Vocabulary:是由语料库构建出的、包含模型可识别token 的集合。词表中每个token都分配有唯一的 ID并支持 token 与 ID 之间的双向映射。构建词汇表的过程如下图所示首先将训练集中的全部文本分词成独立的词元然后将这些词元按字母顺序进行排列并删除重复的词元:接下来将唯一的词元聚合到一张词汇表。该词汇表定义了每个唯一的词元到唯一的整数值的映射。2.2.2词嵌入如下图所示将上一步得到的词元ID转化为嵌入向量这个向量能更丰富地标识对应词的含义。论文中每个词元嵌入向量维度为512。2.3位置编码在RNN循环过程中每个词按顺序输入因此模型能知道每个词的位置信息。但是Transformer输入中所有词并行输入虽提升了计算效率但却丢失了词的位置信息故通过位置编码添加词的位置信息。位置编码的得到方式有很多种可以通过固定算法得到也可通过训练得到目前并不知道哪种最好。在论文中位置编码具体数值的计算与输入序列的内容无关是固定值。论文中位置编码交织了一系列正弦值和一系列余弦值对于每个位置 pos当 i 为偶数时使用正弦函数计算当 i 为奇数时使用余弦函数计算。pos 该词在序列中的位置位置编码向量的长度与嵌入向量相同论文中为512i 位置编码向量的索引值论文中为0-511下图为位置编码得到的向量的示意图横轴为位置编码向量的长度图示为0-64但实际论文中为0-511纵轴为输入序列分词之后的Token序列长度。红框代表一个词元的位置编码向量。2.4词元嵌入向量与位置嵌入向量结合词元嵌入向量与位置嵌入向量维度一样论文中为512将二者相加得到输入嵌入向量。3、注意力Transformer 取得突破性效果的核心在于注意力机制。模型处理每个单词时能够捕捉上下文里和它语义密切相关的内容。一句话中每个词都会计算自身与其他词语的关联程度以此判断相互影响的强弱。注意力热力图便能直观展示单词之间的注意力权重用颜色深浅代表关联紧密程度。如在句子 The cat drank the milk because it was hungry 中代词 it 的指代对象需要结合语境判断。通过注意力可视化可以清晰看到it 与句中 cat 的关联权重最高、联系最紧密这也让模型准确理解it 指代的正是小猫。如下图所示Transformer中包含3种注意力注意力1Encoder中的Self-Attention注意力2Decoder中的Masked Self-Attention注意力3Decoder中的Cross-Attention3.1 Self-AttentionSelf-Attention 用于获取本序列内相互的注意力输入分两种情况首层为输入嵌入其余层为上一层输出为了方便解释这里统一用— 表示。接下来演示如何根据— 得到Self-Attention 的输出:第一步根据得到三个不同的向量以得到三向量为例计算过程如下图依次类推 注意这个过程中所有的输入共享第二步计算注意力分数以α为例计算过程如下图α其中表示向量或向量的长度图中为3论文中为64。向量和向量的长度一定是相同的但是向量长度可能和它们长度不同。这里除以的原因是防止向量和向量维度过高时的值过大softmax的输出会变成接近0或1的数从而导致注意力分数极端梯度消失模型学不出有效内容等问题。第三步计算每个输入向量的贡献如下如所示注意力分数依次乘其对应的向量得到每个输入向量的贡献向量。第四步计算self-attention输出如上图所示αααα上面只计算了把—结合起来用向量表示如下1计算、、2计算Z即3.2Masked Self-AttentionMasked Self-Attention设计是为了防止训练时泄密自回归生成任务第 i 个 token 只能依赖1,2,…,i自身及前文绝对不能看到 i1,i2,… 未来位置的 token。本质上强行赋予 Decoder 自回归归纳偏置模拟「逐词生成、不能偷看后文」的推理逻辑保证训练和推理行为一致。具体做法如下如所示上三角区域加负无穷大经过softmax变为0这样就看不到未来的信息了。3.3 Cross-Attention在decoder中注意力3用到了Cross-Attention获取跨序列注意力。Q查询上一层输出K、V键、值来自Encoder 最终输出即encoder6输出具体如下图所示3.4 Multi-Headed Attention自然语言的关系是多元的单头Attention只有一套只能学习一种模式特征。 但是多头Attention的每个头通过不同的得到不同从而学习不同的特征。例如一个head看到句子中的实体关系另一个head关注句子中的活动另一个head关注词属性但是每个head是不能提前指定学习什么内容的。每个head的权重都是随机初始化的给定足够多的训练数据和时间每个头都将学习语言的不同方面。下图是有八个head每个head学习到的Attention用八种不同的颜色表示颜色越深代表权重越大。可以看出不同head关注不同从而学习不同特征。接下来将逐步说明Multi-headed Attention以3个head为例论文中有8个head的计算过程第一步不同head分别计算、、第二步不同head分别计算对应的Z第三步整合多头输出通过拼接并乘一个权重得到最终输出其中不同头是并行计算的不共享4、Add Normalize4.1Add残差连接Add残差连接的本质是对应维度直接逐元素相加 。解决深层梯度消失Transformer 堆叠 6 层encoder 6 层 decoder共 12 层深层结构。若无残差反向传播时梯度层层相乘不断衰减深层网络无法收敛。但残差支路梯度无衰减直达底层保证深层可训练。保留原始信息避免经过多层注意力、线性变换后底层基础语义被稀释、丢失。4.2 Layer Normalization 层归一化假设LayerNorm 的输入向量为LayerNorm 只在这 512 个数内部算均值、方差不依赖批次跟别的 Token、别的句子无关。具体计算如下当前输入所有维度的均值当前输入所有维度的方差极小常数如 防止分母除 0缩放参数可学习维度 512偏移参数可学习维度 512LayerNorm的作用如下稳定特征分布、防止数值爆炸注意力打分、多头拼接、多层线性叠加数值容易跑偏LayerNorm 把特征强制拉到均值 0、方差 1附近训练更稳。加速模型收敛归一化后参数更新梯度更平滑学习率更好调收敛更快。消除尺度差异不同 token、不同语义的向量取值范围差别巨大归一化统一分布让后续注意力、线性层更好学习。5、Feed Forward具体说明如下第一层线性升维(论文中为512——2048) ReLU 激活第二层线性降维(论文中为2048——512)还原维度FFN 用 ReLU 增加非线性提升模型拟合能力。6、输出输出具体计算如下最后一层decoder输出维度为(论文中为512假如输出内容用表示Linear用线性变换即矩阵相乘将特征维度从转变为词表总大小即。但是中的值可正可负可大可小代表模型对词表中每个候选 token 的原始 raw 打分 。将输入softmax映射到0-1之间 使所有词的概率加起来严格等于 1形成完整概率分布最大的概率值对应的token就是输出。最后对于正在迷茫择业、想转行提升或是刚入门的程序员、编程小白来说有一个问题几乎人人都在问未来10年什么领域的职业发展潜力最大答案只有一个人工智能尤其是大模型方向当下人工智能行业正处于爆发式增长期其中大模型相关岗位更是供不应求薪资待遇直接拉满——字节跳动作为AI领域的头部玩家给硕士毕业的优质AI人才含大模型相关方向开出的月基础工资高达5万—6万元即便是非“人才计划”的普通应聘者月基础工资也能稳定在4万元左右。再看阿里、腾讯两大互联网大厂非“人才计划”的AI相关岗位应聘者月基础工资也约有3万元远超其他行业同资历岗位的薪资水平对于程序员、小白来说无疑是绝佳的转型和提升赛道。对于想入局大模型、抢占未来10年行业红利的程序员和小白来说现在正是最好的学习时机行业缺口大、大厂需求旺、薪资天花板高只要找准学习方向稳步提升技能就能轻松摆脱“低薪困境”抓住AI时代的职业机遇。如果你还不知道从何开始我自己整理一套全网最全最细的大模型零基础教程我也是一路自学走过来的很清楚小白前期学习的痛楚你要是没有方向还没有好的资源根本学不到东西下面是我整理的大模型学习资源希望能帮到你。扫码免费领取全部内容1、大模型学习路线2、从0到进阶大模型学习视频教程从入门到进阶这里都有跟着老师学习事半功倍。3、 入门必看大模型学习书籍文档.pdf书面上的技术书籍确实太多了这些是我精选出来的还有很多不在图里4、AI大模型最新行业报告2026最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。5、面试试题/经验【大厂 AI 岗位面经分享107 道】【AI 大模型面试真题102 道】【LLMs 面试真题97 道】6、大模型项目实战配套源码适用人群四阶段学习规划共90天可落地执行第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…扫码免费领取全部内容3、这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2567778.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…