重排01:物品相似性的度量、提升多样性的方法
推荐系统中的多样性。如果多样性做得好,可以显著提升推荐系统的核心业务指标。这节课的内容分两部分: 1. 物品相似性的度量。可以用物品标签或向量表征度量物品的相似性。最好的方法是基于图文内容的向量表征,比如 CLIP 方法。 2. 提升多样性的方法。在推荐的链路上,在粗排和精排的后处理阶段,综合排序模型打分和多样性分数做选择。
为了提升物体的多样性,首先要度量两个物品有多相似。
![](http://139.9.1.231/wp-content/uploads/2023/02/image-252.png)
基于物品属性标签计算相似度:
![](http://139.9.1.231/wp-content/uploads/2023/02/image-253-1024x520.png)
基于物品向量表征:基于图文内容的向量表征
用下面的方法不好训练,因为需要人工标注,因此一般采用cilp的方法。
![](http://139.9.1.231/wp-content/uploads/2023/02/image-254.png)
![](http://139.9.1.231/wp-content/uploads/2023/02/image-255.png)
![](http://139.9.1.231/wp-content/uploads/2023/02/image-256-1024x450.png)
提升多样性的方法:
![](http://139.9.1.231/wp-content/uploads/2023/02/image-257-1024x418.png)
![](http://139.9.1.231/wp-content/uploads/2023/02/image-258.png)
![](http://139.9.1.231/wp-content/uploads/2023/02/image-259.png)
重排02:MMR 多样性算法(Maximal Marginal Relevance)
推荐系统和搜索引擎重排中常用的 Maximal Marginal Relevance (MMR),它根据精排打分和物品相似度,从 n 个物品中选出 k 个价值高、且多样性好的物品。这节课还介绍滑动窗口 (sliding window),它可以与 MMR、DPP 等多样性算法结合,实践中滑动窗口的效果更优。
![](http://139.9.1.231/wp-content/uploads/2023/02/image-260.png)
![](http://139.9.1.231/wp-content/uploads/2023/02/image-261-1024x665.png)
选择R中MR最高的放入集合S中。
![](http://139.9.1.231/wp-content/uploads/2023/02/image-262-1024x520.png)
![](http://139.9.1.231/wp-content/uploads/2023/02/image-263-1024x592.png)
![](http://139.9.1.231/wp-content/uploads/2023/02/image-265-1024x525.png)
参考文献: Carbonell and Goldstein. The use of MMR, diversity-based reranking for reordering documents and producing summaries. In ACM SIGIR Conference on Research and Development in Information Retrieval, 1998.
重排03:业务规则约束下的多样性算法
推荐系统有很多业务规则,比如不能连续出多篇某种类型的物品、某两种类型的物品笔记间隔多少。这些业务规则应用在重排阶段,可以与 MMR、DPP 等多样性算法相结合。
![](http://139.9.1.231/wp-content/uploads/2023/02/image-266.png)
![](http://139.9.1.231/wp-content/uploads/2023/02/image-267-1024x487.png)
![](http://139.9.1.231/wp-content/uploads/2023/02/image-268.png)
![](http://139.9.1.231/wp-content/uploads/2023/02/image-270-1024x651.png)
重排04:DPP 多样性算法
行列式点过程 (determinantal point process, DPP) 是一种经典的机器学习方法,在 1970’s 年代提出,在 2000 年之后有快速的发展。DPP 是目前推荐系统重排多样性公认的最好方法。 DPP 的数学比较复杂,内容主要是超平行体、超平行体的体积、行列式与体积的关系。
![](http://139.9.1.231/wp-content/uploads/2023/02/image-271-1024x507.png)
![](http://139.9.1.231/wp-content/uploads/2023/02/image-272-1024x362.png)
![](http://139.9.1.231/wp-content/uploads/2023/02/image-273-1024x491.png)
参考文献: Chen et al. Fast greedy map inference for determinantal point process to improve recommendation diversity. In NIPS, 2018.
![](http://139.9.1.231/wp-content/uploads/2023/02/image-274-1024x477.png)
![](http://139.9.1.231/wp-content/uploads/2023/02/image-275-1024x481.png)
![](http://139.9.1.231/wp-content/uploads/2023/02/image-276-1024x494.png)
![](http://139.9.1.231/wp-content/uploads/2023/02/image-277.png)
![](http://139.9.1.231/wp-content/uploads/2023/02/image-278.png)
行列式等价于体积,因此用行列式的值来衡量物品的多样性。
![](http://139.9.1.231/wp-content/uploads/2023/02/image-280-1024x370.png)
DPP及其再推荐系统重排中的应用。求解DPP是比较困难的,需要计算行列式很多次,而计算行列式需要矩阵分解,代价很大。这节课介绍Hulu论文中的算法,可以用较小的代价求解DPP。 参考文献: Chen et al. Fast greedy map inference for determinantal point process to improve recommendation diversity. In NIPS, 2018.
行列式等价于体积,因此用行列式的值来衡量物品的多样性。
![](http://139.9.1.231/wp-content/uploads/2023/02/image-281-1024x678.png)
![](http://139.9.1.231/wp-content/uploads/2023/02/image-282-1024x456.png)
![](http://139.9.1.231/wp-content/uploads/2023/02/image-283-1024x544.png)
求解DPP:
![](http://139.9.1.231/wp-content/uploads/2023/02/image-284-1024x632.png)
![](http://139.9.1.231/wp-content/uploads/2023/02/image-285.png)
![](http://139.9.1.231/wp-content/uploads/2023/02/image-286.png)
![](http://139.9.1.231/wp-content/uploads/2023/02/image-287-1024x557.png)
![](http://139.9.1.231/wp-content/uploads/2023/02/image-288.png)
![](http://139.9.1.231/wp-content/uploads/2023/02/image-289-1024x512.png)
![](http://139.9.1.231/wp-content/uploads/2023/02/image-290-1024x597.png)
![](http://139.9.1.231/wp-content/uploads/2023/02/image-291-1024x575.png)