基于LLM增强的推荐系统重排
一、结论写在前面
论文来自香港城市大学、华为诺亚方舟实验室。
论文标题:LLM-enhanced Reranking in Recommender Systems
论文链接:https://arxiv.org/pdf/2406.12433
重排序是推荐系统中的关键组件,对精炼推荐算法的输出起着至关重要的作用。传统的重排序模型主要关注准确性,但现代应用要求考虑多样性和公平性等额外标准。现有的重排序方法往往在模型层面未能有效地调和这些多样化的标准。此外,这些模型由于其复杂性和不同场景下重排序标准的不同重要性,经常面临可扩展性和个性化的挑战。
为此,论文介绍了一种基于LLM的自动重排序框架,旨在通过自动重排序增强推荐系统。论文方法的核心是开发一个通用的节点结构,用于表示各种方面的需求,并在系统中作为不同的节点。这种结构有助于构建一个协调自动重排序过程的函数图,辅以历史重排序池,便于对重排序决策进行回顾性分析。
此外,使用“目标”句子来指导不同节点的整合,确保框架能够动态地融合多个方面的需求。这一设计使得LLM4Rerank在重排序过程中展现出卓越的性能、可扩展性和个性化。在三个广泛认可的工业数据集上的实验验证,强调了所提出的LLM4Rerank框架的有效性。
二、论文的简单介绍
2.1 论文的背景
现有的重排序模型确实存在几个限制。首先,由于这些方面之间存在巨大的语义鸿沟,在模型中全面考虑和平衡多个方面的复杂组合是具有挑战性的。这是因为每个方面都通过独特的属性维度审查推荐列表,突出了复杂的语义关系和区别。这种复杂性突显了不同方面之间存在的巨大鸿沟。
此外,可扩展性问题构成了另一个主要障碍,阻碍了单一模型在可能优先考虑不同方面或功能规则的多样化推荐设置中的应用。当引入新的方面或定制重排序规则(如反向规则或停止条件)时,这一挑战尤为突出,这些规则在模型开发之初并未预料到。
此外,无法个性化地融合各种方面进一步限制了现有模型的个性化,正如先前研究所指出的。一旦部署,特定模型在不同方面的输出倾向是固定的,无法根据不断变化的业务或用户偏好进行智能调整。
为了克服这些障碍,一个理想的解决方案是构建一个多功能的重新排序框架,该框架能够同时考虑多种方面组合和语义细微差别。这样的框架能够灵活适应不同情境和用户需求的独特要求,提供一个更加动态和定制化的重新排序方案。
图1:推荐系统中的排序与重排序过程
然而,在使用LLMs构建重排序框架时,出现了几个重大挑战。第一个挑战涉及确保框架以有组织和灵活的方式进行扩展,使其能够容纳当前的方面需求,同时也能适应潜在的未来方面。第二个挑战围绕制定一种机制,能够根据特定的推荐设置或用户偏好自动结合多样化的方面需求,最终实现真正的个性化。
为了解决这些挑战,论文提出了LL.M4Kerank,这是一个创新的重新排序框架,它利用零样本大型语言模型(LLMs)的力量进行更精确的重新排序。具体来说,LLM4Rerank将重新排序中的各种方面要求表示为不同的节点,使框架能够以思维链(CoT)的方式自动整合这些节点。这种方法的优势在于:它确保了可扩展性,允许无缝地包含新的节点以应对新兴的方面要求。为了证明这一点,除了准确性方面,多样性和公平性方面也被添加到LLM4Rerank建模中。
2.2 框架
这里概述了推荐中重新排序任务的问题公式化,随后对LLM4Rerank及其主要组件进行了全面概述。
2.2.1 问题公式化
重排序任务在推荐系统中扮演着关键角色。如图1所示,考虑U为用户集合,I为可供推荐的物品集合。为清晰起见,本文将每个用户和物品分别表示为特征向量(w和i)。初始时,一个排序模型生成一个候选物品列表。为了提高推荐性能,应用重排序过程来分析\boldsymbol{I}^{r}中物品间的关系,从而生成K个物品,从初始列表中。重排序模型的目标是优化定义的目标函数,以增强用户-物品的相关性:
图2:LLM4Rerank的整体结构。输入首先被导向“准确性”节点,该节点在函数图中启动一个自动的节点到节点的重排序过程(a)。不同颜色的节点(b)代表了重排序过程中的不同方面或功能步骤,指导大型语言模型(LLM)进行决策。一旦“停止”节点被选为下一个节点,一个完整的重排序过程就被认为完成。最终结果是基于历史重排序池(c)中的最近重排序结果生成的。为简化起见,历史重排序池中的项目列表由项目ID的列表表示。注意,下划线符号对应于子图(b)中的模块
为了促进各种重排序基线之间的公平比较,采用了广义矩阵分解(GMF)模型作为统一的全局排名模型,遵循先前的研究。这种方法确保所有重排序模型在相同的候选项目列表上操作。
2.2.2 LLM4Rerank概览
论文介绍提出的重排序框架LLM4Rerank,如图2所示。该框架接收三种类型的输入:
用户信息(user info),包括性别和年龄等特征;
候选项目列表I;
一个名为“目标”的句子,概述了重排序的优先方面。
LLM4Rerank被构造成一个完全连接的函数图,不包括“停止”节点,如图2(a)所示。每个节点代表一个潜在的重排序步骤,由LLM生成一个重排序列表,考虑到特定的方面相关或功能要求,如图2(b)所示。函数图中的每个边表示节点到节点转换的潜在路径,确保所有节点之间的连通性,除了“停止”节点。为了展示LLM4Rerank的可扩展性,论文不仅集成了一个“准确性”节点,还集成了“多样性”和“公平性”方面节点以及两个功能节点:“后退”和“停止”,以实现实际功能。节点架构精心设计,允许LLM顺序评估不同节点,从而优化重排序结果,全面满足多个方面要求。此外,为了防止记忆丢失并增强LLM对方面组合的评估,使用了一个历史重排序池(图2(c))。该池按顺序记录每个节点的结果,作为每个节点后续重排序的辅助参考。最终,当达到“停止”节点时,重排序过程完成。
2.2.3 节点构建
为了便于大型语言模型(LLM)对复杂方面要求进行系统性分析,本结构旨在为特定要求建立明确的节点。这种安排使得LLM能够采用思维链方法处理这些要求。然而,这种方法面临两个主要挑战:首先,定制节点结构以保持可扩展性,当集成更多要求时;其次,使LLM能够自动选择其后续重排序步骤。
为解决这些挑战,论文引入了一个通用的节点结构。它包括一个重排序步骤,并配有一个辅助指示器,该指示器表示由下一节点名称识别的即将到来的步骤的方向。这种配置允许LLM在LLM4Rerank框架内自动导航,根据当前可用的信息做出决策。
这概述了论文针对节点结构定制化的挑战,旨在增强LLM4Rerank框架的可扩展性的策略。具体而言,论文引入了一种通用的节点结构,作为所有节点的基础,如图2(b)所示。这种通用节点代表在LLM考虑下的单步重排序。通用节点的输入包括用户信息的语义表示、候选项目、定义整个重排序过程个性化焦点的“目标”句子,以及如果可用的话,整个历史重排序池。该节点的输出分为两部分:当前节点的即时重排序结果,由项目ID列表表示,与当前节点的名称一起整合到历史重排序池中,作为后续步骤的参考。此外,还产生了一个指示器(即本文中的下一个节点的名称),指定下一个用于重排序的节点,从而实现自动的逐步过程。在每个节点内部,LLM4Rerank首先根据预定义模板和当前特定的重排序标准及输入,定制一个提示。随后,LLCM4Rerank将与LLM交互,基于生成的提示获取两个输出。
方面节点 为了使LLM能够执行针对不同方面需求定制的重排序任务,论文在提出的通用节点结构中采用基于提示的模板方法。这种方法允许实例化专门用于评估重排序过程中不同方面的特定节点。因此,每个节点都被设计为系统地处理这些关键方面之一,确保重排序结果反映出平衡的考虑。在本研究中,为了展示LLM4Rerank的可扩展性,论文实现了三个专门用于重排序的方面节点:“准确性”、“多样性”和“配对性”。
•准确性节点:该节点旨在满足重排序阶段最终推荐列表的性能标准。因此,提示模板的设计强调了用户与物品之间的关联。图3展示了一个在该节点内使用的简单模板示例。此外,鉴于推荐准确性的至关重要性——这是推荐系统中不可或缺的基本方面——准确性节点已被确立为LLM4Rerank框架的起点。因此,每次重排序过程都以准确性节点开始,确保从一开始就对精确性给予基础关注.
•多样性节点:该节点专门设计以满足重排序阶段最终推荐列表的多样性标准。在本研究中,论文通过评估最终列表中特定物品属性的变化程度来评估重排序结果的多样性。为此,论文采用了-NDCG指标。因此,图4描绘了多样性节点中使用的模板的一个示例。
•公平性节点:该节点旨在满足重排序阶段最终推荐列表中的公平性目标。在论文的研究中,推荐结果的公平性被操作化为两个样本组之间平均分数差异,这两个样本组根据一个明显的特征进行区分,并使用平均绝对偏差(MAD)指标进行评估(Zhu, Hu, and Caverlee 2018)。鉴于LLM本质上生成的是重排序列表而非数值分数,论文为最终推荐列表中的项目分配线性范围从1到0的分数。随后,这些分数用于计算MAD以评估公平性。对于深入的方法论阐述,读者可参考第.节。图S提供了一个简单的公平性节点模板示例。
图3:准确性节点的示例提示模板
图4:多样性节点的示例提示模板
功能性节点:最近的重新研究已经证明了反思在优化LLMs输出中的有效性。为了增强LLM4Rerank在重排序过程中的逻辑能力并引入专门功能,论文开发了两个功能性节点,专门用于促进重排序序列中的反思和终止。
•反向节点:该节点使LLM能够在评估先前的重排序努力时,有选择地忽略被认为是次优的重排序结果。在此框架内,LLM4Rerank从历史重排序池中删除最新的重排序结果,并推进到一个公平性节点模板的示例后续节点根据LLM输出指令确定。该节点的操作示例模板如图6所示。
•停止节点:此节点控制LLM4Rerank输出序列的终止。当LLM4Rerank指定此节点作为输入步骤时,表示完整的重新排名过程的结束。随后,此节点从历史重新排名池中提取最近的重新排名结果,并将其呈现为最终的重新排名结果。需要注意的是,由于此节点仅功能性地标志着重新排名的结束,并不需要访问LLM,因此此节点不需要提示模板。
图5:公平性节点的示例提示模板
图6:后向节点示例提示模板
2.2.4自动重新排名过程
为了利用LLM基于多样化的方面要求进行重新排名,论文设计了不同的节点,每个节点针对特定的方面标准。然而,为每个重新排名任务预定义从一个节点到另一个节点的路径既低效又难以实现。因此,为了适应独特的用户偏好并显著提高个性化,开发了一个自动重新排名过程,主要包含以下三个子过程:
•设定目标:为了适应个性化需求并促进LLM4Rerank在不同上下文中的可扩展性,手动输入的句子,即“目标”,被作为每个重新排名过程的初步输入之一。如图2所示,“目标”指明了特定重新排名过程的主要焦点。通过解释“目标”与相应节点之间的语义联系,LLM能够自动为任何给定的重新排名任务选择最合适的节点。通过解释“目标”与相应节点之间的语义联系,LLM能够自动为任何给定的重新排名任务选择最合适的节点。
•节点间自动过渡:对于每个节点,在接收到大型语言模型(LLM)的回复后,LLM4Rerank会获取当前的重新排名结果,并伴随一个指示器(即下一个节点的名称),以确保在不同节点间流畅且自动地过渡。
•停止重新排名的条件:为减少长时间不活跃的风险,并解决可能因LLM回复中未识别的语义不准确性导致的错误,框架内设定了两个终止标准。第一个标准在LLM自动识别“停止”节点为后续步骤时触发。第二个标准在LLM遍历预设数量的节点后激活,该数量由超参数设定,不包括“后退”节点。满足任一条件即标志着重新排名过程的完成。随后,该节点从历史重新排名池中检索并呈现最新的重新排名结果作为最终结果。
算法1:LLM4Rerank的整个自动重新排名过程
通过应用这些子过程,LLM4Rerank的整个自动重新排名过程如算法1所示。
2.3实验
论文在三个广泛认可的工业数据集上进行实验,探讨以下研究问题:
表1:所用数据集的统计信息
•RQ1:LLM4Rerank在准确性、多样性和公平性方面与已建立的重新排名基线相比如何?
•RQ2:LM4Rerank能否自动识别并优先考虑针对个人偏好的特定方面要求的重新排名混合?
•RQ3:LLM4Rerank的自动重新排名框架是否明显优于预定的重新排名路径?
2.3.1实验设置
数据集:论文使用三个广泛认可的公共数据集进行实验:ML-1M 1,KuaiRand(KuaiRand-Pure),和Douban-Movie。对于每个数据集,论文采用文献中广泛采用的留一法(He等 2017; Bayer等 2017; Gan等 2021),将数据分为训练、验证和测试集。
根据先前研究(Lin等 2022),论文选择广义矩阵分解(GMF)模型作为全局排名模型,为每个用户生成包含20个项目的候选列表。为确保深度学习与LLM基础模型之间的公平比较,论文排除了缺乏明确语义信息的特征和交互少于五次的用户。对于深度学习模型,论文使用标准嵌入技术(Wang等 2021; Guo等 2021)将各种特征转换为向量输入。相反,对于LLM基础模型,特征的语义信息(例如,特征的名称)被用作输入。表1展示了预处理后数据集的统计信息。
基线方法 在本节中,论文通过与以下基线方法进行比较,评估LLM4Rerank解决多样化方面需求的能力:
•GMF将矩阵分解扩展到非线性框架中,作为本研究中的主要全局排序方法。GMF的结果代表了应用任何重排序过程之前的推荐。
•DLCM通过使用循环神经网络和基于注意力的损失函数来理解局部排序动态,旨在主要提高推荐结果的准确性,从而增强重排序效果。
•PRM利用具有自注意力机制的变换器架构,通过识别项目间的相互影响来精炼整个推荐列表,从而专注于提高准确性。
•MMR旨在平衡查询相关性与重排序文档中的冗余减少,使用最大边际相关性得分来增强推荐结果中的多样性方面。
•FastDPP加速了确定性点过程(DPP)的最大后验(MAP)推断,促进了多样化推荐集的高效生成。该模型专注于推荐结果的多样性方面。
•FairRec引入了一个公平感知推荐框架,该框架采用分解对抗学习和正交正则化。它旨在减轻与敏感用户属性相关的偏见,从而在不损害整体性能的情况下促进推荐的公平性。
•RankGPT研究了LLMs在信息检索中的排序任务中的应用,采用了一种新颖的指令排列生成方法和滑动窗口策略。该模型以其对准确性的关注而著称。需要注意的是,作为零样本LLM基线,原始论文中的排列蒸馏方法并未实现。
•GoT提出了一种思维图方法,通过将生成的内容结构化为图来增强大型语言模型(LLMs)的提示效果。这种方法促进了协同效应、思维提炼和反馈回路的整合,使LLM的推理更紧密地与人类的认知过程相一致。与LLM4Rerank不同,GoT遵循预定的节点到节点推理路径,不考虑历史数据。通过应用固定的路径,“准确性-多样性-公平性-停止”,GoT作为本论文中关注准确性、多样性和公平性结合的零样本LLM基准。
实现细节 在评估准确性方面,论文采用了广泛认可的指标:命中率(HR)和归一化折损累积增益(NDCG)。对于评估多样性方面,论文应用了常用的指标o-NDCG。为了评估公平性,论文使用了平均绝对差异(MAD)。MAD的计算公式为:
对于多样性,而“视频时长”——分为小于60,000毫秒和大于60,000毫秒——用于公平性评估。为了微调基于深度学习的模型以达到最佳性能,论文将学习率设为0.001,并通过网格搜索确定最佳超参数。对于零样本LLM基线和LLM4Rerank,选择Llama-2-13B作为默认的LLM主干。
2.3.2总体性能(RQ1)
这里提供了LCM4Rerank与各种基线在表2中详细描述的全面性能比较。比较分析显示:
•DLCM和PRM在准确性方面表现出可接受的性能,如IR和NDCG指标所示。PRM利用变换器架构评估用户-物品相关性,在准确性上超越了DLCM。
•MMR和FastDPP在增强多样性方面表现有效,如o-NDCG指标量化所示。这些模型通过强调物品相似性和列表范围的多样性,擅长多样化用户重排列表。
•FairRec 在促进公平性方面表现出强大的性能,通过 MAD 指标进行衡量。通过分解对抗学习和正交正则化技术的整合,FairRec 确保了不同用户群体间的推荐更加公平。
•RankGPT 展示了出色的性能,突显了零样本大型语言模型在重排序任务中的能力。相反,GoT 采用链式思维方法,通过促进对多个方面的顺序分析,取得了更优的结果。
•LLM4Rerank 通过个性化“目标”设置和自动重排序过程,显著超越了基线,验证了其全面的有效性。CLM4Rerank 巧妙地结合了重排序的各种方面要求,展示了其多功能性。虽然 LLM4Rerank-ADF 在单一方面可能不领先,但其在所有维度的总体平衡性能证实了将大型语言模型与自动重排序框架集成的好处。这种方法通过语义理解有效地协调了不同的方面需求,提供了在准确性、多样性和公平性方面的优化结果。
2.3.3 方面组合分析 (RQ2)
表 4:LLM4Rerank 的消融研究
在本节中,论文深入探讨了旨在评估 LLM4Rerank 是否能根据不同的用户定义“目标”自动调整其重排序策略以结合特定方面要求的实验。论文对 ML-1M 数据集上的 LLM4Rerank 进行了测试,这些测试在多样性和公平性方面反映了不同的优先级:
•DF:对多样性和公平性方面赋予同等重要性。
•D-F:优先考虑多样性,随后强调公平性。
•F-D:优先考虑公平性,随后强调多样性。
在本实验中,最大节点计数 MC 设定为 5。如表 3 所示,结果表明 LLM4Rerank 能够根据不同的“目标”熟练调整其重排路径,促进了对方面需求的动态加权整合。这一能力显著增强了重排过程的个性化。
值得注意的是,“准确性”节点在所有重排结果中始终存在,强调了每一次重排序列都以准确性节点开始。这一初始步骤确保了用户-物品匹配的基础准确性得以保持。
此外,观察到在针对不同“目标”的 LLM 偏好路径中,优先考虑的方面占主导地位,这表明 LLM4Rerank 框架能够驱动 LLM 思考并捕捉“目标”中方面的重要性关系,并影响 LLM 的推理焦点。
另外,可以注意到,很少有推理路径因为推理节点达到其最大值而结束。这表明在当前设置下,使用 3 个不同的方面节点,3-4 个思考步骤足以让 LLM 自然地给出结果。
2.3.4 消融研究 (RQ3)
论文在 ML-1M 数据集上进行消融研究,以阐明 LLM4Rerank 各组件对整体性能的影响。实验旨在通过系统地移除某些特征来剖析模型的架构,从而突出它们各自的贡献。论文以“准确性”方面为例进行研究,并将论文的调查与特定的“目标”对齐:关注准确性方面。以下是用于比较的 LLM4Rerank 的变体:
•LLM4Rerank-A:如表 2 所示,包括所有子结构并专注于准确性方面。
•无历史重排池 (-H):排除历史重排池,移除了参考先前重排结果的能力。
•无自动重排序(-AR):采用静态重排序路径 '准确性-准确性-停止'。
•无其他方面节点(-N):省略除“准确性”和“停止”节点外的所有节点。
根据表4的发现,论文得出以下结论:
•缺乏历史重排序池(LLM4Rerank-IH)导致性能显著下降,强调了在序列决策中整体视角的重要性。此功能使LLM4Rerank能够回忆和评估先前的选择,增强了模型的战略深度。
•移除自动重排序过程(LLM4Rerank-AR)导致性能大幅下降,证实了适应性路径在应对多样性方面需求的实用性。自动重排序机制允许LLM4Rerank根据当前所有信息动态确定后续步骤,从而优化重排序序列。
•消除其他方面和功能节点(LLM4Rerank-N)同样导致性能显著下降。这突显了全面审查机制的价值,如“后退”节点所促进的,模仿人类决策过程。同时,与-AR相比,LLM仍能决定在结束重排序过程前可以访问此节点的次数。性能提升验证了即使LLM4Rerank只有一个方面节点,动态节点访问次数仍能带来益处。
这些结果阐明了LLM4Rerank子结构在增强重排序性能中的关键作用,特别是在针对特定方面焦点定制过程方面。研究强调了模型复杂架构的设计,旨在灵活整合和平衡各种重排序标准。
2.3.5 案例研究
通过具体案例研究进一步说明LLM4Rerank框架的工作原理及其是否能真正平衡重排序的不同方面,如图7所示。在此图中,论文报告了LLM4Rerank在不同“目标”下的两种最常见路径:第一种(A-D-F)同时考虑准确性、多样性和公平性;第二种(A-A-B-D)更侧重于准确性方面,随后是多样性方面。
评估基于特定路径的平均结果。从第一种路径来看,根据“目标”的指导,LLM4Rerank依次通过“准确性”、“多样性”和“公平性”节点,然后结束重排序。在多样性重排序步骤后,不仅“-NDCG”指标提高,“fIR”和“NDCG”指标也有所提升。这可能是因为在实验中,LLM不仅考虑当前方面,还考虑历史重排序结果来综合当前重排序。
此外,“o-NDCG”与“NDCG”指标之间的正相关关系在同时考虑两者时也可能影响方面结果。从第二种路径可以看出,功能节点如“后退”的加入帮助LLM更系统地思考。当它感知到在连续访问“准确性”节点后多样性方面几乎没有变化时,它考虑返回到前一步并将下一步设置为多样性节点。
图7:LLM4Rerank在ML-1M数据集上的案例研究。该图展示了LLM4Rerank在两个“目标”下的最常见路径。评估基于特定路径上的平均结果
图8:在ML-1M数据集上使用LCM4Rerank-ADF对“候选项数量”超参数的分析
2.3.6 超参数分析
近期研究揭示了大型语言模型(LLMs)在全面处理包含密集信息的长上下文时所面临的挑战。随着排名序列中候选项数量的增加,语义信息的量也随之增加,可能会使LLMs不堪重负。这可能解释了当零射击LLMs直接应用于包含数百万项的推荐系统时观察到的效能下降。鉴于此,本节探讨了超参数“候选项数量”(最初固定为20)对ML-1M数据集内重排性能的影响,如图8所示,使用LLM4Rerank-ADF进行演示。
研究结果表明,随着“候选项数量”的增加,LLM4Rerank在各个方面的性能都有所下降。这一结果不仅突显了LLMs在解析长上下文方面的当前局限性,而且强化了它们在需要更简洁上下文信息的任务中的能力,如重排,而不是直接应用于广泛的推荐或排名框架。通过限制项的数量并专注于单一请求内的丰富语义内容,LLM4Rerank有效地缩小了不同方面需求之间的语义鸿沟,从而提供了更连贯的重排结果,增强了整体推荐质量。
本文转载自 AI帝国,作者: 无影寺