超越 Transformer 的架构前瞻
第六章未来——超越 Transformer 的架构前瞻Transformer 的成功令人瞩目但在工程和科学的世界里没有任何架构是完美的。Transformer 有它的阿喀琉斯之踵全球顶尖实验室正在积极探索下一代架构。这一章我们来剖析 Transformer 的天花板在哪里以及未来可能的突破方向——每一个新方案都是为了解决 Transformer 没能解决的问题而生的。6.1 Transformer 的致命弱点O(L2)O(L^2)O(L2)复杂度6.1.1 问题的本质回忆第三章的核心公式QKTQK^TQKT计算的是每个词与其他所有词的相关性。如果句子有 L 个词QKTQK^TQKT产生的是一个L × L 的矩阵。L 100 词 → 矩阵大小 10,000 ✓ 轻松 L 1,000 词 → 矩阵大小 1,000,000 ✓ 还行 L 10,000 词 → 矩阵大小 100,000,000 ⚠ 开始吃力 L 100,000词 → 矩阵大小 10,000,000,000 ✗ GPU 显存爆炸计算量和内存需求随序列长度的平方增长——这就是O(L2)O(L^2)O(L2)复杂度。6.1.2 这个限制的实际影响在现实应用中这个限制非常痛一本小说有几十万字 → 无法一次性读入一段视频有成千上万帧 → 帧间注意力计算量爆炸一段基因序列可能有上百万碱基对 → 完全不可能实时对话需要维护完整的历史上下文 → 随对话变长成本急剧飙升目前的解决办法是截断——只看最近的 N 个词比如 GPT-4 的上下文窗口最初是 8K tokens后来扩展到 128K。但截断本身就意味着信息损失。6.1.3 为什么在设计时没有避免这个问题因为O(L2)O(L^2)O(L2)是全连接设计的必然代价。让每个词与所有词直接通信计算量自然是词数的平方。这就像一个有 100 人的会议如果每两个人都要互相握一次手总握手次数 100×99÷24,950100 × 99 ÷ 2 4,950100×99÷24,950次。人数翻倍到 200 时握手次数变成约19,90019,90019,900次——接近翻了 4 倍。在序列很短时几百到几千词O(L2)O(L^2)O(L2)完全可以承受。但当我们想处理更长序列时这个平方关系就成了不可逾越的墙。6.2 前沿探索方向一线性注意力与状态空间模型6.2.1 核心思路用记忆状态代替全局矩阵Mamba2023和SSMState Space Model状态空间模型系列代表了一种根本性不同的思路不再计算 L×L 的全局注意力矩阵而是维护一个**固定大小的隐藏状态**来压缩和传递信息。类比理解Transformer的方式每个人到了会场和所有人握手O(L2)O(L^2)O(L2)SSM/Mamba的方式每个人到了会场只看一块共享白板上的信息然后更新白板O(L)O(L)O(L)白板的大小是固定的不随与会人数增长。所以无论来了 100 人还是 100 万人每个人的操作成本都是一样的。6.2.2 Mamba 的关键创新选择性状态空间传统 SSM 的问题是白板太小容易忘记旧信息。Mamba 的核心创新是引入了**“选择性机制”**——根据当前输入的内容动态决定保留白板上的哪些信息重要的事情不擦掉遗忘哪些信息不重要的覆盖掉写入什么新信息这非常像 LSTM 的门控思想但 Mamba 在新的数学框架下实现了它并且保持了线性复杂度。6.2.3 为什么 Mamba 还没有完全取代 Transformer训练效率Mamba 的训练并行化技巧不如 Transformer 成熟生态惯性大量工程设施优化器、并行框架、推理引擎是为 Transformer 建造的经验积累学术界对 Transformer 的调参经验远多于 SSM混合趋势最新研究显示 Mamba Attention 的混合架构可能优于纯粹的两者6.3 前沿探索方向二高效长程注意力6.3.1 核心思路不放弃 Attention但让它更高效另一条路线是保留 Attention 的优点全局信息获取能力但想办法降低复杂度。6.3.2 Perceiver IO用瓶颈压缩来自 DeepMind2021 年。核心观察在全连接 Attention 中大量的词-词关系其实是冗余的——不是每个词都需要和每个词交流。Perceiver IO 的方案引入一组固定数量的**“潜变量Latents”**作为中间缓冲。传统 Attention直接全连接 词1 ←→ 词2 ←→ 词3 ←→ ... ←→ 词L → O(L²) Perceiver IO通过潜变量中转 词1 → 潜变量1 → 词1 词2 → 潜变量2 → 词2 → O(L × M)M 是固定的潜变量数量 ... ... ... 词L → 潜变量M → 词L潜变量的数量 M 是人为设定的比如 256不随输入长度 L 增长。所以总复杂度从O(L2)O(L^2)O(L2)降到了O(L×M)O(L)O(L × M) O(L)O(L×M)O(L)——线性类比传统 Attention 是所有人打电话给所有人O(L2)O(L^2)O(L2)条通话Perceiver 是所有人打电话给总机转接O(L)O(L)O(L)条通话。信息在总机潜变量里被压缩和中转。6.3.3 Hyena用长卷积替代注意力来自斯坦福2023 年。Hyena 的核心思想是Attention 的QKTQK^TQKT本质上在计算一个关系矩阵而**长程卷积Long Convolution**也可以用来建模序列之间的依赖关系且只需要O(LlogL)O(L \log L)O(LlogL)的复杂度。具体做法使用参数化的滤波器像信号处理中的滤波器通过 FFT快速傅里叶变换实现高效的长程卷积。类比Attention 是每两个人单独通话电话网络Hyena 是通过广播电台发信息无线广播。广播覆盖所有人成本不随听众数量增加。6.3.4 RetNet回归递推告别二次开销来自微软2023 年。RetNetRetentive Network的精妙之处在于它设计了一种双模式架构训练时使用并行模式像 Transformer 一样高效训练推理时切换为递推模式像 RNN 一样逐步生成每步只需O(1)O(1)O(1)计算这解决了一个长期困扰的矛盾Transformer 训练快但推理贵需要重算整个注意力矩阵RNN 推理便宜但训练慢。RetNet 想要两者的优点。6.4 前沿探索方向三混合专家模型MoE6.4.1 一个不同维度的问题前面讨论的都是如何处理长序列的问题。MoE 解决的是另一个问题如何在不增加计算成本的前提下增加模型的知识容量6.4.2 核心思想大模型里只激活一小部分MoEMixture of Experts的灵感来自人脑人脑有约 860 亿个神经元但在处理任何单一任务时只有很小比例的神经元会被激活。MoE 模型通常包含数十个甚至数百个专家子网络但在处理每个输入时一个**路由器Router**会选择性地只激活 1-2 个专家输入 猫在睡觉 ↓ 路由器判断这是关于动物行为的 → 激活动物专家和日常活动专家 ↓ 只有 2 个专家参与计算其余几十个专家休息 ↓ 计算成本 ≈ 普通模型的 2/N N 专家总数6.4.3 MoE 的现实成就Google 的Switch Transformer2021用 MoE 架构训练了一个1.6 万亿参数的模型但由于每次只激活一小部分专家实际推理成本与一个几十亿参数的普通模型相当。GPT-4 也被广泛传言使用了 MoE 架构OpenAI 未公开确认。6.5 未来蓝图融合式统一架构6.5.1 不会是单一方案的胜利综合以上分析下一代架构最可能的形态不是某个单一方案的一家独大而是一个取各家之长的融合体┌─────────────────────────────────────────────┐ │ 融合式统一架构 │ │ │ │ ┌──────────────┐ ┌──────────────┐ │ │ │ 局部注意力 │ │ SSM/Mamba │ │ │ │ (精细理解) │ │ (长程记忆) │ │ │ └──────┬───────┘ └───────┬──────┘ │ │ │ │ │ │ ├──────────────────┤ │ │ ↓ ↓ │ │ ┌──────────────────────────────┐ │ │ │ MoE 专家路由层 │ │ │ │ (按需激活知识容量最大化) │ │ │ └──────────────┬───────────────┘ │ │ ↓ │ │ ┌──────────────────────────────┐ │ │ │ Perceiver 式潜变量压缩 │ │ │ │ (控制计算规模线性扩展) │ │ │ └──────────────────────────────┘ │ └─────────────────────────────────────────────┘各组件的分工局部注意力在短范围内保留 Transformer 的精确关系捕捉能力SSM/Mamba以线性成本处理长距离依赖MoE大幅扩展知识容量而不增加每次推理的成本Perceiver 潜变量将任意长度的输入压缩到可控规模6.5.2 预期突破当前 Transformer 的限制未来架构的解决方案预期效果O(L2)O(L^2)O(L2)复杂度SSM 潜变量压缩线性扩展百万级长文无压力推理成本高RetNet 递推模式O(1)O(1)O(1)常数推理时延知识容量受限于计算量MoE 稀疏激活万亿参数但推理成本不变仅处理文本通用的序列编码文本/图像/视频/音频/代码统一处理6.6 本章小结进化的逻辑Transformer 的成功 ↓ 暴露了 O(L²) 的天花板 ↓ 三条突围方向同时推进 ① 线性模型Mamba/SSM→ 用记忆状态代替全局矩阵 ② 高效注意力Perceiver/Hyena/RetNet→ 降低矩阵规模 ③ 稀疏激活MoE→ 增加容量不增加成本 ↓ 未来趋势三者融合为统一架构 ↓ 目标线性扩展 常数推理 全模态通用记忆要点技术的进化永远遵循同一条逻辑链条——成功暴露短板 → 短板催生新方案 → 新方案融合旧优势。Transformer 也遵循了相同的逻辑从 RNN 进化而来而未来的架构将从 Transformer 进化而去。理解这个进化的为什么比记住任何技术细节都更有价值。因为细节会过时但工程进化的逻辑永远不会。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2416096.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!