泊松矩阵分解:无需数据解决推荐系统冷启动问题的矩阵分解算法

原创 精选
人工智能 算法 前端
推荐系统是目前互联网行业最火爆的技术之一。在过去的十年中,互联网行业诞生了数以百万计的推荐系统模型迭代版本。

作者 | 汪昊

审校 | 孙淑娟

推荐系统是目前互联网行业最火爆的技术之一。在过去的十年中,互联网行业诞生了数以百万计的推荐系统模型迭代版本。尽管针对不同场景进行优化的推荐系统模型非常之多,但是经典的模型非常少。矩阵分解是推荐系统领域勃兴早期,在 Netflix 大赛中展露头角的推荐系统算法,也是过去十年中最为成功的推荐系统算法。尽管到 2023 年的今天,推荐系统领域早已是深度学习的天下,矩阵分解仍然广泛应用于各大公司研发过程中,并且仍然有许多科研人员在从事相关算法的研究工作。

矩阵分解算法最为经典的论文是 2007 年的 Probabilistic Matrix Factorization 。在此基础上,后人进行了大量的扩展工作,比如 2021 年的 RankMat(论文下载地址:https://arxiv.org/abs/2204.13016)、ZeroMat (论文下载地址:https://arxiv.org/abs/2112.03084) 和 2022 年的 DotMat (论文下载地址:https://arxiv.org/abs/2206.00151)、KL-Mat (论文下载地址 :https://arxiv.org/abs/2204.13583/ 代码下载地址:https://github.com/haow85/KL-Mat)等。推荐系统因为其简单易用性,以及速度快等原因,深受互联网行业广大工程师的喜爱。

推荐系统冷启动问题是今年来备受关注的另一个研究热点。许多从业者解决推荐系统的思路都是迁移学习和元学习。然而这个思路有个致命的缺点,就是需要其他知识领域的数据。而许多公司是不具备这一条件的。真正不需要任何数据的冷启动算法,是在 2021 年 ZeroMat 提出以后出现的。代表算法包括上一节提到的 ZeroMat 和 DotMat。本文将要介绍的泊松矩阵分解算法(PoissonMat)是 2022 年国际学术会议MLISE 2022发表的论文。论文的名称是PoissonMat:Remodeling Matrix Factorization using Poisson Distribution and Solving the Cold Start Problem without Input Data(论文下载地址:https://arxiv.org/abs/2212.10460)。

我们首先回顾一下Probabilistic Matrix Factorization的MAP定义:

我们随后定义用户给物品打分这一行为为泊松分布。根据泊松分布的定义,我们得到以下公式:

根据泊松公式中参数的定义,我们有:

根据齐夫分布,我们可以得到如下公式:

综合以上公式,我们得到泊松矩阵分解(PoissonMat)的解析形式:

采用随机梯度下降算法求解以上公式,我们得到如下算法流程:

作者随后在 MovieLens 1 Million Dataset 和 LDOS-CoMoDa Dataset 上进行了算法准确率和公平性的实验对比:

图 1 泊松矩阵分解在 MovieLens 1 Million Dataset 上的对比实验

图 2 泊松矩阵分解在 LDOS-CoMoDa Dataset 上的对比实验

根据实验对比效果,我们可以得出如下结论:泊松矩阵分解(PoissonMat)在准确率和公平性指标方面都优于其他算法。并且难能可贵的是,泊松矩阵分解算法没有用到任何输入数据,是一个彻头彻尾的零样本学习算法,很好的解决了冷启动问题。

最后,作者是在 16G RAM 和 Intel Core i5 的联想家用笔记本上做的实验,算法运行速度飞快,并且实现也非常简单。

以解决推荐系统冷启动问题为目标的零样本学习算法,目前是研究热点。而不需要任何数据解决零样本学习问题的真正的零样本学习算法,始自 2021 年的 ZeroMat 算法。本文介绍的泊松矩阵分解算法(PoissonMat)性能优于 ZeroMat 及其后续算法 DotMat,是目前这一领域最优秀的算法之一。由于相关研究还处于起步阶段,希望能够引起广大科技从业者的关注和重视。

作者介绍

汪昊,前 Funplus 人工智能实验室负责人,前恒昌利通大数据部负责人。本科 (2008 年)和硕士(2010年)毕业于美国犹他大学(University of Utah)。对外经贸大学在职 MBA (2016年)。在推荐系统(公平性/基于场景的推荐/冷启动/可解释性/排序学习)、计算机图形学(几何建模/可视化)、自然语言处理(工业界的落地应用)、风控反欺诈(金融/医疗)等方向有多年的经验和独到的见解。在互联网(豆瓣、百度、新浪、网易等)、金融科技(恒昌利通)和游戏公司(Funplus等)有 12 年的技术研发和管理经验。在国际学术会议和期刊发表论文 30 篇,获得国际会议最佳论文奖 / 最佳论文报告奖 3 次 (IEEE SMI 2008 Best Paper Award / ICBDT 2020 Best Oral Presentation Award / ICISCAE 2021 Best Oral Presentation Award)。2006 年 ACM/ICPC 北美落基山区域赛金牌。2004 年全国大学生英语能力竞赛口语决赛铜牌。2003 年济南市高考理工科英语状元。

责任编辑:华轩 来源: 51CTO
相关推荐

2017-02-08 09:25:16

Spark分解推荐

2021-10-13 08:00:00

数据算法人工智能

2021-06-24 08:30:00

人工智能数据计算

2024-10-23 09:05:07

PixijsMatrixTransform

2024-02-26 00:06:00

排序学习算法斯奇拉姆

2018-07-05 08:26:16

矩阵分解技术

2017-07-06 08:36:10

特征向量矩阵PCA

2023-11-14 07:16:51

冷启动技术推荐系统

2011-03-21 08:58:03

Oracle数据库服务启动

2014-07-15 09:36:55

机器学习

2014-07-04 10:05:57

机器学习

2020-08-03 08:04:04

限流算法Sentinel

2021-10-29 07:25:32

螺旋矩阵整数

2023-10-12 07:32:27

冷启动推荐模型

2022-04-06 15:05:52

机器学习深度学习数据库

2014-07-31 11:40:08

ssh

2013-08-16 10:04:46

OpenSUSE 12VirtualBox

2013-12-16 11:01:08

OpenSUSEOpenSUSE 12VirtualBox

2009-06-11 11:50:00

netbeans jd

2011-05-06 11:31:17

打印机故障
点赞
收藏

51CTO技术栈公众号