如何利用零样本全序列排序学习进行推荐

译文
人工智能
推荐系统领域是一个子领域繁多,覆盖技术面广博的技术领域。因为推荐系统能给网站带来低成本流量从而极大的推动网站的发展,因此被各大互联网公司青睐。

作者 | 汪昊

审校 | 重楼

推荐系统领域是一个子领域繁多,覆盖技术面广博的技术领域。因为推荐系统能给网站带来低成本流量从而极大的推动网站的发展,因此被各大互联网公司青睐。推荐系统团队和产品的维护费用,与推荐系统带来的经济收益相比,对大公司而言是微不足道的,因此几乎所有的大型互联网公司都给自己配备了推荐系统团队。

所有的推荐系统工程师在设计和搭建推荐系统的过程中,都会碰到冷启动问题。也就是当一个新用户或者新物品进入我们系统的时候,因为缺乏相关历史数据,所以没有办法给用户进行推荐。最简单的解决办法是推荐热门商品。近几年来流行的迁移学习和元学习算法,也是常见的解决冷启动问题的方式。

2021 年,ZeroMat 算法被中国科学家发明,这是人工智能历史上第一个非启发式,不利用迁移学习/元学习的零样本学习算法。该算法可以很好的解决推荐系统冷启动问题。随后DotMat、PoissonMat、RankMat、PowerMat 和 LogitMat 等一系列不需要数据就能进行推荐的零样本算法被相继提出。在 2024 年结束的国际学术会议 ICCAI 2024 上,中国科学家提出了零样本全序列排序学习算法。本文将带领读者学习该算法的细节,从而对该技术一探究竟。

作者首先回顾了全序列 Order Statistics 的公式。全序列的 Order Statistics 公式没有大多数人想象的那么复杂,它其实就是全概率公式乘以变量数的阶乘。而推荐系统的输入数据中,评分越高的物品,打分人数就越多,因此作者在这里用评分本身来代替评分的分布。比如,我们认为得分为 5 的电影的打分观众人数是得分为 1 的观众的 5 倍。而得分为 5 的电影,在评分数据集合中出现的次数也是得分为 1 的电影的 5 倍。作者用矩阵分解的方式近似用户物品评分。由此,我们得到下列损失函数:

为了求解最大似然函数的参数,作者采用了随机梯度下降算法,因此得到了下列公式:

我们发现在上述公式中,没有出现历史数据,因此该算法是真正意义上的零样本学习算法。作者随后在 MovieLens 1 Million Dataset 和 LDOS-CoMoDa Dataset 两个数据集合上测试了算法的效果:

图 1 和 图 2 显示在 MovieLens 数据集合上,该算法性能优越,超过了经典的矩阵分解算法和其他零样本学习算法。

图 3 和 图 4 显示在 LDOS-CoMoDa 数据集合上,该算法性能优越,超过了经典的矩阵分解算法和其他零样本学习算法。

综上所述,我们发现该算法不仅实现简单,并且性能优越。值得每一个推荐系统从业者认真学习和积极关注。

论文名称:Zeroshot Listwise Learning to Rank Algorithm for Recommendation

论文下载地址:https://www.researchgate.net/publication/383585074_Zeroshot_Listwise_Learning_to_Rank_Algorithm_for_Recommendation

作者简介

汪昊,达评奇智董事长兼创始人。前 Funplus 人工智能实验室负责人。在 ThoughtWorks、豆瓣、百度、新浪、网易等公司有超过 13 年的技术和技术管理经验。精通推荐系统、风控反欺诈、聊天机器人和爬虫等领域。在国际学术会议和期刊发表论文 44 篇。5 次获得最佳论文奖/最佳论文报告奖。2006 年 ACM/ICPC 北美落基山区域赛金牌。

责任编辑:华轩 来源: 51CTO
相关推荐

2024-06-25 09:35:04

模型训练

2023-02-24 10:22:15

2021-10-25 09:06:29

模型人工智能计算

2024-03-15 12:49:40

AI训练

2023-07-12 09:00:00

自动语音识别机器学习

2020-12-25 15:24:24

人工智能

2021-06-17 10:27:03

人工智能AI机器学习

2024-08-28 14:20:00

数据模型

2024-02-07 12:13:19

AI数据

2024-03-25 09:00:00

人工智能深度学习对抗学习

2023-02-03 16:31:02

模型

2024-03-15 15:15:31

模型训练

2016-04-11 14:35:59

机器学习数据挖掘数据模型

2022-06-13 11:57:04

谷歌模型计算

2024-03-15 08:00:00

模型数据

2015-05-06 09:36:05

Java语言从零开始学习

2021-07-24 10:19:14

AI 数据克隆

2023-12-13 15:15:10

机器人人工智能GPT-4

2021-09-13 17:20:01

大数据AI人工智能

2022-06-27 14:49:30

代码机器学习
点赞
收藏

51CTO技术栈公众号