内容导航:
- 零基础入门推荐系统 - 新闻推荐 - 实操1
- 赛题数据介绍:
- 数据集介绍:
- 读取数据集:
零基础入门推荐系统 - 新闻推荐 - 实操1
赛题数据介绍:
赛题以预测用户未来点击新闻文章为任务,数据集报名后可见并可下载,该数据来自某新闻APP平台的用户交互数据,包括30万用户,近300万次点击,共36万多篇不同的新闻文章,同时每篇新闻文章有对应的embedding向量表示。为了保证比赛的公平性,将会从中抽取20万用户的点击日志数据作为训练集,5万用户的点击日志数据作为测试集A,5万用户的点击日志数据作为测试集B。
数据集介绍:
详细数据链接如下:
| 名称 | 大小 | 备注 |
|---|---|---|
| articles.csv | 9.89MB | 新闻文章信息数据表 |
| articles_emb.csv | 973.15MB | 新闻文章embedding向量表示 |
| testA_click_log.csv | 20.47MB | 测试集用户点击日志 |
| train_click_log.csv | 43.5MB | 训练集用户点击日志 |
| sample_submit.csv | 831KB | 提交样例文件 |
articles_emb.csv: (MD5:1f8a7fc79e0ad13311e27e3408d0287b)
字段表:

因为不同文件链接字数太长, 这里是将其下载了放到了一个位置, 需要的可以自取:
link:https://pan.baidu.com/s/1pLm_DQvDm5FSTHaW5Britw?pwd=ww50
passwd:ww50
我的项目结构如下图所示:

读取数据集:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import os
articles = pd.read_csv('data/articles.csv')
articles_emb = pd.read_csv('data/articles_emb.csv')
train_clicks = pd.read_csv('data/train_click_log.csv')
test_clicks = pd.read_csv('data/testA_click_log.csv')
变量表如下所示:








![[附源码]Python计算机毕业设计Django小太阳幼儿园学生管理系统](https://img-blog.csdnimg.cn/7a7612001ae4462fbf6d1b28a5228de3.png)










![[2022-12-06]神经网络与深度学习hw11 - 各种优化算法比较](https://img-blog.csdnimg.cn/img_convert/5f2bc737ac835b33db67bf89b67b2808.gif)
