P33 Transformer(下)
视频链接
P33 Transformer(下)
1. Decoder: Autoregressive(AT)
Decoder原理:
Encoder vs Decoder:
Masked:
how to stop:
2. Decoder: Non-autoregressive(NAT)
3. Encoder-Decoder
4. Training
Tips:
a. Copy Mechanism
b. Guided Attention
c. Beam Search
- 适用场景:答案非常明确的任务(如,语音辨识);而对于需要有创造力的、不是只有一个答案的任务,则需要在decoder加入随机性。
d. BLEU score
e. exposure bias



















![[chapter 31][PyTorch][Early Stop Dropout]](https://img-blog.csdnimg.cn/89f222fa4a464e73945433b21ac9d58e.png)