大语言模型在推荐系统中的探索与应用

作者：王奕超 2024-07-22 09:10:04

大语言模型为推荐系统的优化提供了新的思路和方法，我们期待在未来的研究和实践中，能够进一步挖掘其潜力，提升推荐系统的性能和用户体验。欢迎大家就相关话题进行阅读、了解和讨论。

来自华为诺亚方舟实验室的王奕超老师今天给我们带来了关于大语言模型在推荐系统中的探索与应用的分享，将从数据、模型和流程三个层面展开，介绍华为在推荐系统领域的两个重要项目，并回答关于用户推理知识构造、特征交叉和在线服务流程的具体问题。通过这些前瞻性的探索和应用，推荐系统的性能和用户体验有望得到显著提升。

一、背景和问题

1. 推荐系统

让我们从一个具体例子——电影推荐系统开始。推荐系统的输入主要是用户的交互行为，如点击或观看过的电影。这些行为反映了用户的偏好。除此之外，还有物品的特征信息，比如电影的年代、类别和演员等属性信息，以及用户的一些特征，比如年龄和性别等。推荐系统会根据这些输入信息，结合当前用户请求的一些上下文信息（如电影榜单、时间和地点等），为用户提供评分推荐。

2. 大语言模型

根据前面的介绍，我们可以了解到当前的推荐系统，特别是在电影或电商等领域，往往是一个相对封闭的系统。这类系统通常基于特定应用场景的日志数据进行模型训练，并部署于该场景提供服务，与外界系统交互有限。然而，理想的推荐系统应是一个开放系统，能够与外界进行交互，利用实时、事实的知识信息来提升推荐效果。大语言模型，特别是那些在互联网量级语料中训练出的模型，具备丰富的世界知识和逻辑推理能力，这些能力恰好可以弥补传统推荐系统的不足。它们不仅可以用于补充推荐系统的测试编码、模型打分等功能，还在流程控制等方面展现出巨大的潜力。在运用大语言模型时，我们可以考虑在训练阶段进行微调或固定参数，而在推理阶段，则可以选择仅使用推荐系统或直接将大语言模型作为推荐系统的推理器。这些策略的具体实施将在后续分析中详细展开。

总之，大语言模型为推荐系统的优化提供了新的思路和方法，我们期待在未来的研究和实践中，能够进一步挖掘其潜力，提升推荐系统的性能和用户体验。欢迎大家就相关话题进行阅读、了解和讨论。

随着大语言模型的引入，推荐系统将逐渐从封闭走向开放，引入丰富的世界知识。当前，推荐系统主要基于物品间的关联、用户与物品的交互信号等统计信息进行推荐。然而，在代模型时代，推荐形态将发生变化，已初现端倪。利用大模型的广泛知识和强大逻辑推理能力，推荐系统将向生成式方向发展，不仅生成推荐结果，还涉及中间态的行为，如特征生成、推理过程及新流程的拆解，为用户提供更加个性化和全面的推荐体验。

大语言模型具备推荐系统所缺乏的两大关键能力。首先，它拥有丰富的事实性和常识性知识，能提供电影深入细节、故事情节、观影感受及导演信息等，这些信息在推荐系统语料之外。其次，大语言模型能基于现有知识，对物品、用户行为及偏好进行常识性推理，包括物品关联、用户行为分析等，尤其擅长处理复杂场景下的用户行为，这些都是当前推荐系统所不具备的能力。

二、LLM4Rec 探索及应用

1. KAR：利用大语言模型开放知识辅助推荐系统

接下来，将介绍近期探索的大语言模型在推荐系统中的应用与分析。首先，传统推荐系统较为封闭，仅依赖推荐域内知识和协同信号进行推荐，对用户偏好的学习存在局限。同时，推荐上下文信息通过离散编码建模，难以直观理解，尤其在处理冷门物品或数据稀疏问题上表现不佳。

大语言模型则拥有通用外部知识，能了解用户与物品背景，具备逻辑推理能力，深入理解用户行为动机及社会因素。然而，它也面临三大局限性：一是缺乏推荐领域知识，特别是协同信号；二是处理复杂推理问题性能不佳，如预测用户偏好需多步推理；三是实时性能难以满足工业推荐系统需求。这些问题是大语言模型在推荐系统应用中需要解决的关键点。

当前，利用大语言模型进行推荐的工作主要分为两类。一类是将大语言模型作为推荐系统的编码器，对物品描述、用户评论等文本信息进行编码，增强用户和物品的表征，但并未生成新信息，仅是对推荐域内知识的编码。另一类则是直接将语言模型作为推荐主体，利用其在互联网语料库上训练得到的通用能力进行推荐，然而效果通常不及传统算法模型，尤其在特征交叉和协同信号方面的重要性已被广泛验证。

此外，大语言模型在推荐系统中的推理速度较慢，计算成本高，难以满足工业推荐系统的实时性要求。同时，由于模型参数量大、所需数据多，模型更新也难以实现实时或近实时，这对推荐效果产生了显著影响。因此，在大模型时代，如何平衡推荐效果与实时性仍是重要课题。

针对大语言模型在推荐系统中的应用，我们面临的主要挑战是如何有效提取并预存其知识，以便被传统模型更好地利用。这涉及到大语言模型在复合推理问题上的局限性，即虽能准确回答子问题，但难以直接解决复杂问题。为解决此问题，我们借鉴了因式分解的思路，将知识生成分解为多个子任务，由大语言模型逐一推理。

以电影推荐为例，我们首先识别影响用户兴趣的关键因素，如电影类别、导演、演员及获奖情况等，并将这些信息融入提示词模板中。模板分为用户偏好推理和物品事实性推理两部分，前者包含用户描述、观影历史等，后者则结合场景感知因素。通过填充模板并向大语言模型提问，我们可获得用户行为偏好的深入理解，并同样应用于物品事实性分析，最终融合开放与结构化信息，提升推荐系统的准确性和个性化程度。

这个过程分为三个阶段，首先解决知识生成问题，通过指令模板提问生成关于用户偏好和物品实时应用的逻辑推理知识。由于推荐模型难以直接利用文本信息，需将知识适配为推荐系统可用的相对低纬度的 dense 向量，避免高维信息淹没系统信号。因此，引入多专家网络进行信息提取、压缩和映射，集成两类信息以增强知识鲁棒性，解决原模型幻觉问题。

接着进入知识利用阶段，推荐模型结构灵活，可适配任何大语言模型生成的知识进行推理。LLM 进行离线推理，生成离线知识及表征，拿到表征后，就放到传统推荐模型中，知识适配器和传统模型是一起训练的；推理时，仅使用知识适配器和传统推荐模型，显著降低训练与推理成本，满足时延需求。

我们的实验结果显示，大语言模型在多种推荐算法上的通用性得到了验证。与未经增强的结果相比，引入大语言模型后，AUC 指标显著提升，表明开放域知识对推荐领域有显著增益。同时，我们验证了方案的可落地性，发现推理复杂度与推荐模型相当，且 KAR 方案在推理时间上与 Base 模型相近，是实际工业场景中的可行选择。

对比 SOTA 等预训练模型，我们实现了近 1% 的提升。效能分析表明，不同知识类型对效果有显著影响。融合用户偏好与物品事实性知识的推理结果最为显著。该方案已在华为多个场景上线，包括应用市场、华为音乐等，主要用于物品侧表征增强，如音乐歌曲、广告、应用等，显著提升了推荐效果，为全网带来了价值提升。

2. Uni-CTR：利用大语言模型构建多场景推荐底座

接下来介绍第二个工作，即利用大语言模型进行跨域推荐的研究。多场景相比单场景具有显著优势，包括缓解数据稀疏问题、实现场景间信息共享及高效性。然而，当前多场景推荐系统仍面临挑战：主要场景可能主导模型参数，影响其他场景；语义信息利用及场景关系建模需进一步探索；新增或淘汰场景对模型参数影响大。

大语言模型具备外部通用知识和逻辑推理能力，这在多场景建模中尤为重要。以电商和视频场景为例，大语言模型能识别洗护用品成分、市场动态及新闻等外部知识，并通过逻辑推理，如用户购买运动器材后可能偏好体育视频，实现场景间信息的自然泛化。我们将探索如何更好地利用这些能力，构建通用的多场景推荐模型。

传统的推荐算法模型通常基于特定类型的数据。这些数据主要来源于表格，包含场景、用户 ID、点击历史等信息。同时，物品数据则包括名称、品牌、价格等特征。这些特征通过 One-Hot 或 Embedding 编码进行建模，并依据行为信号不断更新表征。这是传统多场景推荐算法的基本框架。

在大语言模型的设置下，我们优化了多商业场景的处理流程。首先，针对表格数据，我们摒弃了传统的编码方式，构建了基于自然语言描述的提示词模板，以更直观地表达 Domain ID、用户及产品信息。这些模板将结构化数据转化为自然语言描述，随后输入大语言模型（如 24 层 Transformer 结构的 SharedBert）中。

在处理过程中，我们每隔几层 Transformer 引入 Leader 网络（三层 Transformer Encoder Block），以提取不同层次的模型表征。Leader 网络专注于学习场景特有的信息，而中间的 general network 则旨在提取跨场景共享的通用信息。

对于多场景应用，每个场景拥有独立的网络及对应的预估网络（如 DSN），这些网络根据场景特性进行优化。同时，我们采用门控网络融合大语言模型的通用表征与场景特有的新输出，实现场景共性与特性的学习。

此外，该方案还具备 zero-shot 冷启动能力，能够利用大语言模型的输出预测新场景，解决冷启动问题。新增场景时，仅需增加相应的网络路径，对主体网络影响甚微。

我们将 Amazon Review DataSet 中的 Fashion、Music Instruments 和 Gift Cards 三个数据集作为不同场景，来验证我们的方案。这里主要对比了三种模型：单场景独立模型、传统多场景模型，以及基于大语言模型的 Multi-domain Model。其中，Uni-CTR 是我们提出的创新方案。

实验结果显示，Uni-CTR 在各个场景均取得了显著的效果提升，尤其是在 Gift Cards 场景上表现尤为突出。这一方案不仅解决了传统多场景模型中某些场景性能提升而其他场景可能下降的问题，还避免了主场景（如 Fashion）对次场景性能产生的负面影响，实现了全面且均衡的性能提升。

我们同时考察了 Uni-CTR 的 zero-shot 能力，在新场景上测试模型效果。对于单场景和多场景模型，均选取最佳预测结果作为展示。Uni-CTR 采用大语言模型的通用预测网络，在 zero-shot 场景下亦展现出显著效果增益。

通过引入新场景并微调，Uni-CTR 也实现了效果显著提升。我们对比这一重要场景模型参数，分析不同参数量级语言模型（如 TenonBot、Bot、Debota 及 SharedLama）的影响。实验表明，模型效果随参数量增大而提升，验证了 Signal 的适用性。

此外，我们还探讨了模型不同组件的影响，进行效能分析。结果显示，去除 Leader 和 Backbone 模型均导致效果下降，其中 Backbone 模型影响最为显著。

三、挑战和展望

接下来，将从工业应用的视角，探讨当前大语言模型在推荐系统面临的挑战与未来趋势。

首先，面对的挑战可分为三个层面：一是协同信号与语义信号的联合建模，需提升单独使用时的效果；二是输入策略的挑战，包括如何利用大语言模型优化用户画像、处理长文本输入及 ID 编码的融合问题；三是动态数据如何有效融入模型，以及模型推理效率在工业级应用中的挑战。

展望未来，主要从数据、模型和流程三个层面展开工作：数据层面，致力于使推荐系统具备世界知识和逻辑推理能力，从封闭走向开放；模型层面，从判别式模型向生成式模型发展，潜力在于直接生成用户感兴趣的内容；流程层面，传统多阶段推荐流程或将被统一模型取代，实现端到端的推荐结果生成。

总体而言，大语言模型对推荐系统产生了巨大影响，随着产品形态的不断迭代，它将为推荐搜索系统带来全新变革。未来，我们有更多想象空间值得探索，需要持续努力，以应对挑战，把握机遇。

责任编辑：姜华来源： DataFunTalk

大语言模型推荐系统人工智能