文章目录
- 作业要求
- 代码
- 运行结果
作业要求
题目:词向量
数据集:input.zh.txt数据集
任务:
1.确定数据集的TFIDF词向量(随机选择20%数据进行训练);
2.确定数据集的Word2vec词向量(调用gensim函数实现训练);
3.选择10个词根据词向量确定其Top5相似词;
代码
"""
题目:词向量
数据集:input.zh.txt数据集
任务:
1.确定数据集的TFIDF词向量(随机选择20%数据进行训练);
2.确定数据集的Word2vec词向量(调用gensim函数实现训练);
3.选择10个词根据词向量确定其Top5相似词;
"""
import re
import math
from collections import defaultdict



















