ICLR 2024 | UTS提出全新联邦推荐算法:从全面个性化过渡到加性个性化
这篇论文提出了一种新的联邦推荐算法 FedRAP。FedRAP 在联邦学习框架中同时针对用户信息和项目信息实施双边个性化策略,以此来增强推荐系统在隐私保护和个性化推荐方面的表现。它通过逐步提高正则化权重,平滑地从全面个性化过渡到加性个性化。同时,FedRAP 还引入了对全局项目嵌入进行稀疏化处理的策略,有效降低了通信开销。
论文标题:Federated Recommendation with Additive Personalization
论文链接:
https://arxiv.org/abs/2301.09109
代码链接:
https://github.com/mtics/FedRAP
随着对隐私保护需求的增加,联邦学习环境下推荐系统的开发成为了构建下一代互联网服务架构的新趋势。但是,现有方法多是基于分布式推荐框架并附加隐私保护机制演化而来,这使得它们在联邦推荐系统中很难充分发挥个性化的潜力。为了解决这一问题,本文提出了一种创新方法——联邦推荐与加性个性化(FedRAP),该方法通过分析用户偏好和其对项目的个人理解来优化推荐效果。FedRAP 的核心在于加性个性化技术,它通过将个性化的项目嵌入与所有用户共同形成的稀疏全局项目嵌入相结合。
此外,为了缓解不同客户端间项目嵌入的差异性可能导致的性能问题,FedRAP 采用了逐步增加正则化权重的策略,并通过全局项目嵌入的稀疏化处理来减少通信负担。在四个现实世界的推荐数据集上进行的实验验证了 FedRAP 方法的有效性。
背景和动机
近年来,推荐系统已经成为一个重要的工具,它能够向用户推荐他们可能感兴趣的新内容,并且显著地影响了我们的日常生活。这些系统一般都依赖中心服务器来收集并整合用户的数据、活动记录和偏好信息,以此来训练出能够做出精准推荐的模型。
然而,用户数据往往含有敏感的隐私信息,一旦上传至服务器就可能面临严重的隐私和安全风险。近期,一些隐私保护法规(例如 GDPR)更是明确要求用户数据应当存储于本地设备,而非上传至云端服务器。
针对上述问题,联邦学习(FL)提供了一个潜在的解决方案。它通过在客户端进行本地模型训练,并将训练后的本地模型在服务器端进行聚合,实现了数据的本地化和分布式全局模型训练。FL 已在多个应用场景中取得显著成效,比如谷歌键盘的查询建议功能。然而,客户端之间的数据异质性可能会大幅延缓 FL 的收敛速度,导致客户端漂移或者个别客户端的全局模型性能下降。
为了在保护用户隐私的同时促进不同客户端间的知识共享,学者们正在积极研究联邦推荐系统(FRS)。FRS 能够处理单个用户的客户端数据,以此来构建用户的个人资料。在此情境下,用户的资料和评分数据应当被保留在本地客户端,而服务器则负责存储项目信息。
联邦推荐系统在保护用户隐私的同时,还需要在通信成本和模型精度之间找到一个恰当的平衡点,以便提供最优化的推荐结果。然而,现有的方法往往忽略了用户对相同项目的感知不同的问题,即:不同用户可能对同一项目有不同的偏好,并关注于项目的不同特性。
为了解决现有联邦推荐系统中的这些问题,本文提出了一种名为联邦推荐与加性个性化(FedRAP)的新算法。FedRAP 通过将加性个性化技术应用于项目嵌入,并通过使全局项目嵌入变得稀疏来减少通信成本和延迟。
此外,FedRAP 还采用了一种逐渐变化的参数调整方法,以平衡全局知识共享和本地个性化之间的权衡。FedRAP 遵循水平联邦学习的假设,即:不同客户端拥有独特的用户和数据集,但共享相同的项目。具体而言,FedRAP 的主要贡献包括:
- 双边个性化:FedRAP 为每个客户端提供了私有的用户嵌入,同时通过将与用户相关的本地项目嵌入与在服务器上聚合更新的全局项目嵌入相加,实现了项目的加性个性化。
- 双重正则化策略:一方面 FedRAP 鼓励稀疏性以减少通信开销,另一方面 FedRAP 确保本地和全局项目信息的多样性以保证其互补性。
- 逐渐变化的正则化权重:为了应对早期训练中加性个性化可能带来的性能损失,FedRAP 采取逐步增加正则化权重的方法,来将完全个性化逐渐过渡到加性个性化。
因此,FedRAP 能够利用客户端本地存储的部分评分数据,预测用户对未评分项目的评分,同时兼顾项目的全局视角和用户特定视角。在六个真实数据集上的实验结果表明,FedRAP 在联邦推荐领域显著优于现有方法。
联邦推荐与加性个性化(FedRAP)
为了便于理解和阐述,我们在此不展开讨论具体的公式细节,更多深入的内容请参阅原始论文。
因此,FedRAP 具有如下所示的框架图。
具体来讲,FedRAP采用以下策略:
实验
数据集:为了评估 FedRAP 的性能,本文在六个热门的推荐系统数据集上进行了全面的实验研究,这些数据集分别是:MovieLens-100K(简称 ML-100K)、MovieLens-1M(简称 ML-1M)、Amazon-Instant-Video(简称 Video)、LastFM-2K(简称 LastFM)、Ta Feng Grocery(简称 TaFeng)和 QB-article。
前四个数据集中包括的评分范围是 1-5。鉴于本文的研究目标是对包含隐式反馈的数据进行推荐预测,本文将这些数据集中所有大于 0 的评分均设定为 1。而 TaFeng 和 QB-article 两个数据集包含了基于用户交互日志的隐式反馈信息。在每个数据集中,我们仅考虑了那些至少对 10 个项目做出评价的用户。
基线:本文通过与中心化和联邦学习设置中几种先进方法的对比来验证 FedRAP 的有效性,这包括 NCF、LightGCN、FedMF、FedNCF 和 PFedRec。具体的实验细节,请参考原始论文。
评价指标:本研究采用了命中率(HR@K)和归一化折扣累积增益(NDCG@K)作为评价指标,并将 K 设置为 10。所有的实验都进行了五次重复,以确保结果的可靠性,并报告了实验结果的平均值及其标准偏差。
3.1 主要结果
上图的实验结果显示,在使用的六个数据集中,FedRAP 在绝大多数情况下都超过了其他方法,且在所有联邦学习方法中表现最为突出。这种卓越表现可能归因于 FedRAP 在用户和项目信息上执行的双边个性化策略。
相比于 PFedRec,FedRAP 之所以展现更好的性能,是因为它在个性化项目信息的同时,能够有效保留项目的共性信息,避免了潜在的信息丢失。而 CentRAP 在所有数据集中的表现略胜 FedRAP 一筹显示了 FedRAP 在所采用的数据集中潜在的性能上限。
此外,我们还研究了 FedRAP 的收敛速度,通过比较 ML-100K 数据集上各方法(除了 CentRAP 外)在训练过程中每次迭代的表现。下图的结果展示了 FedRAP 的性能优势,但同时也指出,由于 FedRAP 的复杂性高于 PFedRec,其达到收敛状态需要更多的迭代次数。
3.2 项目信息的可视化
更多实验结果请见原论文。
结论
本文提出了一种名为 FedRAP 的方法,通过同时实现用户信息个性化和项目信息的加性个性化,做出了双边个性化的联邦推荐。
FedRAP 通过逐渐增加正则化权重,实现了从完全个性化到项目信息加性个性化的课程,以减轻在训练早期使用加性个性化引起的性能下降。此外,通过对全局项目嵌入施加稀疏性约束来移除无用的推荐信息,这也有助于减少通信成本。
由于客户端在每次迭代中只上传更新的全局项目嵌入到服务器,因此 FedRAP 避免了用户信息的泄露。通过在 6 个广泛使用的真实世界推荐数据集上进行的比较实验和大量的消融研究,FedRAP 证明了其有效性。此外,由于 FedRAP 的简单性,探索其在其他联邦场景中的应用将是有趣的。
本文转载自 PaperWeekly,作者: 李志伟