【大模型的原理架构对比解析】Encoder-Decoder 架构与 Decoder-Only 架构的输入输出详解
文章目录前言一、Encoder-Decoder 架构1. 每次输入和输出2. 详细例子英译法1编码器阶段2解码器推理过程二、Decoder-Only 架构详细例子文本生成三、对比总结前言在自然语言处理中Transformer 模型主要有两种架构Encoder-Decoder编码器-解码器和Decoder-Only仅解码器。下面分别介绍它们的每次输入和输出并用具体例子说明关键过程。一、Encoder-Decoder 架构这种架构通常用于序列到序列任务如机器翻译、文本摘要。它包含一个编码器和一个解码器。编码器接收完整的源序列输出每个位置的上下文表示或整个序列的编码。解码器自回归地生成目标序列每一步基于已生成的部分和编码器的输出预测下一个词。1. 每次输入和输出编码器输入整个源序列的 token ID 列表例如[x1, x2, ..., xm]。输出每个 token 对应的隐藏状态向量[h1, h2, ..., hm]即上下文表示。解码器推理时第 1 步输入起始符sos 编码器输出的上下文向量。输出下一个 token 的概率分布选择概率最高的 token如y1。第 2 步输入sos, y1 编码器输出。输出下一个 token 的概率分布选择y2。依次类推直到生成结束符eos或达到最大长度。2. 详细例子英译法源句子I love you目标句子Je taime法语假设分词为[I, love, you]→ 法语[Je, t, aime]。1编码器阶段输入三个 token IDI,love,you。输出三个隐藏向量h_I,h_love,h_you每个向量包含整个句子的上下文信息。2解码器推理过程解码器使用自回归方式每一步输入已生成的词和编码器输出通过交叉注意力关注源句子。步骤解码器输入当前已生成序列解码器输出概率分布选择的 token关键中间过程1sos预测下一个词的概率Je自注意力只有sos 交叉注意力关注源句子的I因为Je对应I2sos,Je预测下一个词的概率t自注意力看到sos和Je 交叉注意力关注love因为t是te的一部分对应爱3sos,Je,t预测下一个词的概率aime自注意力看到前三个 交叉注意力关注love4sos,Je,t,aime预测下一个词的概率eos自注意力看到全部 交叉注意力模型判断句子结束关键点解码器的每一步都使用因果自注意力掩码防止看到未来的词同时通过交叉注意力从编码器输出中提取源句子的信息。二、Decoder-Only 架构这种架构通常用于自回归语言模型如 GPT 系列。它只有一个解码器通过因果自注意力依次预测下一个词。每次输入当前已经生成的所有 token 序列包括起始符如果有。每次输出下一个 token 的概率分布。详细例子文本生成前缀The cat sat on the下一个词mat假设分词为[The, cat, sat, on, the]无起始符直接输入前缀。推理过程预测下一个词步骤模型输入模型输出概率分布选择的 token关键中间过程1[The, cat, sat, on, the]预测第 6 个词的概率mat因果自注意力每个位置只能看到前面的 token例如the能看到The、cat、sat、on但不能看到未来。最终从最后一个位置的输出预测下一个词。如果继续生成步骤模型输入模型输出选择的 token2[The, cat, sat, on, the, mat]下一个词概率.3[The, cat, sat, on, the, mat, .]下一个词概率eos或停止关键点每一步的输入都是完整的已生成序列模型通过因果掩码确保自注意力只关注过去的位置从而进行自回归预测。三、对比总结架构输入推理时输出核心机制Encoder-Decoder编码器整个源序列解码器已生成的目标序列每一步解码器每一步输出下一个词的概率编码器提取源信息解码器通过交叉注意力融合源信息同时自注意力保持因果性Decoder-Only已生成的所有 token包括前缀每一步输出下一个词的概率仅使用因果自注意力所有信息来自已生成的序列两种架构的本质区别在于Decoder-Only只依赖已生成的内容而Encoder-Decoder还依赖一个额外的源序列编码。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2425654.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!