齐夫矩阵分解：解决推荐系统马太效应的利器-齐夫分布

[[407036]]

【51CTO.com原创稿件】算法公平性是推荐系统近几年来重要的研究方向。很多的研究人员和工程师在这个问题上做出了卓越的努力。因为推荐场景中的输入数据通常存在马太效应，因此会对计算的中间过程和计算结果产生影响。自 2017 年以来包括马太效应在内的推荐系统公平性问题获得了极大的关注。2020年推荐系统子领域权威会议 RecSys 上的相关论文数量达到了前所未有的程度。SIGIR 和 WWW 等顶级会议也出现了多篇排序学习公平性的论文。相关企业比如 Google 也有自己研发的推荐系统公平性框架。

一个经常出现的解决推荐系统马太效应的框架是损失函数加惩罚项。惩罚项的选取各个研究论文表述不同，然而很多惩罚项比如相关性都不能在理论层面精确的反映马太效应的程度。在刚刚结束的 2021 年的国际学术会议 ICAIBD 2021 有一篇针对推荐系统马太效应的论文 Zipf Matrix Factorization : Matrix Factorization with Matthew Effect Reduction 在理论层面解决了惩罚项如何选择的问题，并且通过实验结果演示了推荐系统可以同时提升技术性能和公平性指标。

齐夫矩阵分解首次明确的提出了衡量推荐系统结果中物品马太效应的统计指标(如下所示)：

，其中 x 代表的是推荐系统输出结果中物品的热度排名。

加上惩罚项之后的损失函数如下图所示：

在优化损失函数的过程中，我们并不知道热度排名 x 的值，只能通过预估的方式。作者利用线性方程组和不加惩罚项的矩阵分解的方式对 x 值进行了近似，之后损失函数可以用随机梯度下降(如下所示)等方法求解：

作者在 MovieLens 数据集上测试算法 MAE 如下：

可以看到，以蓝线表征的齐夫矩阵分解 MAE 曲线总体性能优于没有惩罚项的原始矩阵分解算法。而下图则显示了在算法性能提升的同时，马太效应也得到了改善：

齐夫矩阵分解算法实现简单，性能出众，是解决推荐系统马太效应的利器。随着人工智能算法公平性问题得到越来越多的关注，人类终将走出矩阵的迷雾，迎来人机和平共处的曙光(黑客帝国)。我们有幸处在这样的一个历史时刻，见证着伟大的科技革命发生在自己的身边。

原文链接：https://arxiv.org/abs/2106.07347

作者介绍

汪昊，技术总监/架构师，美国犹他大学本科/硕士，对外经贸大学在职MBA。曾在百度，新浪，网易，豆瓣等公司有多年的研发和技术管理经验，擅长机器学习，大数据，推荐系统，社交网络分析等技术。在 TVCG 和 ASONAM 等国际会议和期刊发表论文 11 篇。国际学术会议 IEEE SMI 2008 和 ICBDT 2020 最佳论文奖。

【51CTO原创稿件，合作站点转载请注明原文作者和出处为51CTO.com】