用户-笔记的交互
对于每篇笔记,系统记录曝光次数、点击次数、点赞次数、收藏次数、转发次数。
点击率=点击次数/曝光次数
点赞率=点赞次数/点击次数
收藏率=收藏次数/点击次数
转发率=转发次数/点击次数
转发是相对较少的,但是非常重要,例如转发至微信等外部平台,可以给社交平台带来流量。
排序的依据
1.排序模型预估用户对物品的点击率、点赞率、收藏率、转发率等多种分数。
2.融合这些预估分数,最简单的方法就是加权和(权重是做A/B测试调出来的)。
3.根据融合的分数做排序和截断,保留分数高的物品。
预估过程
训练过程
使用交叉熵函数作为损失函数
训练存在的困难:类别不平衡,每 100 次曝光,约有 10 次点击,90 次无点击。每 100 次点击,约有 10 次收藏,90 次未收藏。
解决方法:负样本降采样,保留一小部分负样本,让正负样本平衡,减少训练时间。
预估值校准
由于对负样本降采样,会导致预估点击率小于真实点击率。
设正样本数量为
n
+
n_+
n+,负样本数量为
n
−
n_-
n−,使用
α
⋅
n
−
\alpha \cdot n_-
α⋅n− 个负样本,
α
∈
(
0
,
1
)
\alpha \in \left(0,1 \right)
α∈(0,1) 是采样率。