tokenization
tokenization:分词
 每一个词语都是token
 分词方法:转为单个词、转为多个词语
N-gram表示法
准备词语特征的方法
 (把连续的N个词作为特征)
 如 ”我爱你“——>[我,爱,你]
 2-gram——[[我, 爱],[爱, 你]]
向量化
one-hot编码
每一个token都可以用一个N长度的向量表示,N为词空间不重复的词的个数
word embedding
使用浮点型的稠密向量表示token,向量通常为不同维度,向量里面每个值都是超参数,其初始值为随机生成的,之后会在训练过程中不断调整。
 首先 把token用数字来表示,再把数字转换成向量。
 token ——> num ——> vector
| token | num | vector | 
|---|---|---|
| 词1 | 0 | [w11, w12,…,w1N] | 
| 词2 | 1 | [w21, w22,…,w2N] | 

 api: nn.Embedding(词典大小, embedding的维度)


















