作者 | 汪昊
审校 | 孙淑娟
推荐系统是目前互联网行业最火爆的技术之一。在过去的十年中,互联网行业诞生了数以百万计的推荐系统模型迭代版本。尽管针对不同场景进行优化的推荐系统模型非常之多,但是经典的模型非常少。矩阵分解是推荐系统领域勃兴早期,在 Netflix 大赛中展露头角的推荐系统算法,也是过去十年中最为成功的推荐系统算法。尽管到 2023 年的今天,推荐系统领域早已是深度学习的天下,矩阵分解仍然广泛应用于各大公司研发过程中,并且仍然有许多科研人员在从事相关算法的研究工作。
矩阵分解算法最为经典的论文是 2007 年的 Probabilistic Matrix Factorization 。在此基础上,后人进行了大量的扩展工作,比如 2021 年的 RankMat(论文下载地址:https://arxiv.org/abs/2204.13016)、ZeroMat (论文下载地址:https://arxiv.org/abs/2112.03084) 和 2022 年的 DotMat (论文下载地址:https://arxiv.org/abs/2206.00151)、KL-Mat (论文下载地址 :https://arxiv.org/abs/2204.13583/ 代码下载地址:https://github.com/haow85/KL-Mat)等。推荐系统因为其简单易用性,以及速度快等原因,深受互联网行业广大工程师的喜爱。
推荐系统冷启动问题是今年来备受关注的另一个研究热点。许多从业者解决推荐系统的思路都是迁移学习和元学习。然而这个思路有个致命的缺点,就是需要其他知识领域的数据。而许多公司是不具备这一条件的。真正不需要任何数据的冷启动算法,是在 2021 年 ZeroMat 提出以后出现的。代表算法包括上一节提到的 ZeroMat 和 DotMat。本文将要介绍的泊松矩阵分解算法(PoissonMat)是 2022 年国际学术会议MLISE 2022发表的论文。论文的名称是PoissonMat:Remodeling Matrix Factorization using Poisson Distribution and Solving the Cold Start Problem without Input Data(论文下载地址:https://arxiv.org/abs/2212.10460)。
我们首先回顾一下Probabilistic Matrix Factorization的MAP定义:
我们随后定义用户给物品打分这一行为为泊松分布。根据泊松分布的定义,我们得到以下公式:
根据泊松公式中参数的定义,我们有:
根据齐夫分布,我们可以得到如下公式:
综合以上公式,我们得到泊松矩阵分解(PoissonMat)的解析形式:
采用随机梯度下降算法求解以上公式,我们得到如下算法流程:
作者随后在 MovieLens 1 Million Dataset 和 LDOS-CoMoDa Dataset 上进行了算法准确率和公平性的实验对比:
图 1 泊松矩阵分解在 MovieLens 1 Million Dataset 上的对比实验
图 2 泊松矩阵分解在 LDOS-CoMoDa Dataset 上的对比实验
根据实验对比效果,我们可以得出如下结论:泊松矩阵分解(PoissonMat)在准确率和公平性指标方面都优于其他算法。并且难能可贵的是,泊松矩阵分解算法没有用到任何输入数据,是一个彻头彻尾的零样本学习算法,很好的解决了冷启动问题。
最后,作者是在 16G RAM 和 Intel Core i5 的联想家用笔记本上做的实验,算法运行速度飞快,并且实现也非常简单。
以解决推荐系统冷启动问题为目标的零样本学习算法,目前是研究热点。而不需要任何数据解决零样本学习问题的真正的零样本学习算法,始自 2021 年的 ZeroMat 算法。本文介绍的泊松矩阵分解算法(PoissonMat)性能优于 ZeroMat 及其后续算法 DotMat,是目前这一领域最优秀的算法之一。由于相关研究还处于起步阶段,希望能够引起广大科技从业者的关注和重视。
作者介绍
汪昊,前 Funplus 人工智能实验室负责人,前恒昌利通大数据部负责人。本科 (2008 年)和硕士(2010年)毕业于美国犹他大学(University of Utah)。对外经贸大学在职 MBA (2016年)。在推荐系统(公平性/基于场景的推荐/冷启动/可解释性/排序学习)、计算机图形学(几何建模/可视化)、自然语言处理(工业界的落地应用)、风控反欺诈(金融/医疗)等方向有多年的经验和独到的见解。在互联网(豆瓣、百度、新浪、网易等)、金融科技(恒昌利通)和游戏公司(Funplus等)有 12 年的技术研发和管理经验。在国际学术会议和期刊发表论文 30 篇,获得国际会议最佳论文奖 / 最佳论文报告奖 3 次 (IEEE SMI 2008 Best Paper Award / ICBDT 2020 Best Oral Presentation Award / ICISCAE 2021 Best Oral Presentation Award)。2006 年 ACM/ICPC 北美落基山区域赛金牌。2004 年全国大学生英语能力竞赛口语决赛铜牌。2003 年济南市高考理工科英语状元。