1. 引言
1.1.讨论背景
在本文中,我们将深入探讨近两年最具影响力的架构之一:Transformer模型。自从2017年Vaswani等人发表划时代论文《Attention Is All You Need》以来,Transformer架构便在众多领域,尤其是自然语言处理&#x…
Google 2017年的论文 Attention is all you need 阐释了什么叫做大道至简!该论文提出了Transformer模型,完全基于Attention mechanism,抛弃了传统的RNN和CNN。
我们根据论文的结构图,一步一步使用 PyTorch实现这个Transformer模型…