欢迎关注我的CSDN:https://blog.csdn.net/caroline_wendy
本文地址:https://blog.csdn.net/caroline_wendy/article/details/128222398

NLP seq2seq代码编写技巧
数据
- tokenization,离散符号,翻译,划分token
- token2idx,将token变成idx
- add SoS&EoS,开头和结尾添加标识符,start of sentence,end of sentence
collate_fn:pad_sequence、label=target[:,1:]、decoder_input=target[:, :-1]- 每一句话的长度都不一样,对于batch进行后处理,填充到最长句子的长度
torch.nn.utils.rnn.pad_sequencecollate_fn输入是多个训练对,batch_size个- label获取从第1个位置







![[附源码]Python计算机毕业设计Django兴达五金日杂批发商店管理系统](https://img-blog.csdnimg.cn/3f7f7101a47b43d2aca631fe027d88cd.png)











