京东健康基于大模型的生成式推荐在电商标品推荐的应用-51CTO.COM

一、大模型推荐技术发展回顾

1. 视角 1：对现有推荐的“改变”程度

目前，推荐系统关于“大模型”的结合存在三种主要技术思路：传统 CTR 模型不断做大、利用大语言模型在现有推荐各阶段进行增强，生成式大模型端到端解决推荐。

（1）传统 CTR 大模型

CTR 模型在推荐系统中逐渐向大规模化发展，模型复杂度方面，从简单的逻辑回归到复杂的深度学习模型，如 Wide & Deep、DeepFM、xDeepFM 等，提升了特征交互和非线性表示能力。数据规模上，利用大数据集进行训练，增强模型的泛化能力。在早期受限于算力，但随着技术进步，采用分布式计算和 GPU 加速，提升训练效率。CTR 模型不断变大的一个根本逻辑也是大家相信加深加宽的网络表达，海量的样本会对 ctr 模型更好的建模，其实也是在遵循 scaling law，虽然这个术语这两年才活起来，但其实 ctr 模型在 16 年工业界从 LR 转型 DNN 开始，就默认在 scaling 的路上不断发展。

（2）LLM 增强现有推荐技术

大语言模型凭借其丰富的 World Knowledge 和强大的理解能力，在数据样本和特征增强、U&I embedding 理解等方面对推荐系统进行了增强。在样本方面，LLM 通过生成高质量的商品描述和用户画像，有效缓解了冷启动问题，丰富了训练数据。在特征工程方面，LLM 利用其强大的自然语言处理能力，增强了对用户和商品文本信息的理解，生成更丰富、更精细的特征表示。在 embedding 表达方面，LLM 通过预训练和微调，捕捉用户的深层次兴趣和偏好，实现更精准的个性化推荐。

（3）生成式大模型

生成式大模型代表了一种颠覆性的变化，它从传统的多级过滤判别模式转变为端到端的生成模式，为推荐系统提供了全新的数据处理和内容生成能力，代表作就是 meta 最新的论文 Trillion-Parameter Sequential Transducers for Generative Recommendations.

2. 视角 2：大语言模型如何去解“推荐”曾经的发展瓶颈

“推荐”在其发展的各阶段曾遇到不同的瓶颈。

（1）阶段 1：卷数据

在 2010 年左右，推荐系统面临的主要瓶颈是数据量不足。当时处于 PC 时代，数据的体积（volume）、侧边信息（side info）、标签（label）远不如今天丰富。受限于产品设计，强账号产品较少，导致用户 ID、标签和特征都非常稀疏。直到 2013 年移动互联网的爆发，数据问题才得到缓解。在卷数据阶段，一个显著体验是，在论文发表和竞赛中，重点转向了寻找和清洗数据以及数据标注，然后再配合“竞赛神器”（各种树模型，如 GBDT 到 XGBoost）来取得成绩。

（2）阶段 2：卷网络表达

随着神经网络（NN）时代的到来，推荐系统开始从逻辑回归（LR）转向深度神经网络（DNN），这一转变标志着特征交叉表达的自动化。百度的大规模离散逻辑回归是浅层时代的代表作，奠定了后来发展的两个方向：高效的计算框架和精细的特征工程。各种工作把模型表达做精做细，如 Show+Click + MLP + UBM，以及主辅网络的交替训练。在神经网络时代，特征工程的工作从人工交给了网络结构，为了替代人工交叉，让模型自动学习特征的复杂交互，开启了一个模型不断扩展特征交叉表达的时代。

（3）阶段 3：卷算力 & 卷 Infra

Transformer 结构的出现，其天然可并行的“叠罗汉”结构为算力提供了扩展的条件。推荐系统开始设计适用于并行计算的网络结构，并在底层进行计算优化，以应对行为序列的丰富（长宽高）和特征交互的复杂性，这些都对算力和基础设施（Infra）提出了新的要求。与此同时，推荐场景对用户响应时间（RT）的容忍度远低于对话场景，这进一步推动了对推荐系统算力的高要求。

回顾完推荐系统曾经的发展瓶颈，我们再来看大模型的两个主要核心能力：scaling law 质变的涌现和 world knowledge 基础理解，这两个关键能力如何来解决推荐系统曾经面临的发展瓶颈。

（4）World Knowledge*数据瓶颈

①丰富样本

大模型通过其显性知识，例如在搜索相关性方面，可以通过生成相似的查询（query）来丰富样本行和列。这种方法可以扩展到推荐系统中，通过生成硬样本（hard/easy user-item pairs）来增强模型的训练数据集。

②数据预处理

通过构造合适的 prompt，抽取和转化原始信息，让 model 更容易拟合其与 label 的关系。比如，在医生推荐服务中，用户会输入一段患者主诉，但通常是口语化或非标准的，让 LLM 可以将其转化成更 medical level 的表述，以及抽取关键医学词汇，预处理后的输入对医生推荐的表现有极大提升。

（5）World Knowledge*NN 表达瓶颈

①LLM embedding 直接使用

大模型的 embedding 可以直接作为 i2i 或者作为新增的 feature slot 放入模型使用。

②Embedding pre-load for finetune

大模型的隐性知识可以作为输入或预加载（preload）到推荐系统中，以更好地表达用户和物品的知识。例如，在处理冷启动问题时，可以使用大模型预训练的嵌入（Embedding）作为初始化，为新用户或新物品提供较为准确的特征表示。

（6）Scaling law*NN 表达瓶颈

①Scaling Law 对召回的启示：

I2I 召回通常面临做深和做宽的问题，做深是指对于 item1，不仅 top100 是准的，top1w 也是准的，这对多候选池场景通用一套 i2i 是非常重要的；做宽是指除了头部 item 训练比较准，长尾的 item 也需要做到相对不错的准度；解决以上挑战的手段本质就是 scaling law 的各种方法，样本规模的扩大，i2i model 参数的增大，epoch 增多等，以上可以充分解决上述挑战。

②Scaling law 对精排的启示：

Scaling law 对精排的启示在过去几年传统的 ctr 大模型也一直在践行，从 ubm，多模态，多目标，网络结构加深加宽，交叉结构不断丰富等都可以提高模型对用户和物品理解的准确性。大模型的 Scaling Law 能力允许模型在特征交叉方面进行更深入的探索。通过增加模型的大小和复杂性，可以更好地捕捉用户和物品之间的复杂关系。

（7）Scaling law*算力&infra 瓶颈

①与 Scaling Law 同步适配算力和基础设施不断提升

随着大模型的 Scaling Law，算力和基础设施也在不断进化。推荐系统可以设计为更适合并行计算的结构，同时利用底层计算优化来提高效率。

②利用生成式建模和基础设施优化

通过生成式建模，可以在推荐系统中实现从同质数据空间到异质数据全空间的统一表示。此外，通过基础设施的优化，比如使用 Mixture of Experts（MoE）等技术，可以在保持模型复杂性的同时加速推理过程。

通过上述方法，大模型技术能够有效解决推荐系统在数据、网络表达瓶颈，并且反向推动算力基础设施提升，推动推荐系统向更高效、更准确的方向发展。

二、健康电商推荐背景与挑战

在当前的电商环境中，消费者几乎每天都会使用各种购物应用程序，如小红书、京东、淘宝、天猫等。尽管这些平台在用户体验上有很多相似之处，但在健康产品这一细分市场中，推荐系统面临着独特的挑战和特点。

1. 健康产品的刚需和知识驱动特性

泛健康商品，包括营养保健品、OTC、口罩、温度计等，与传统的零售商品相比，具有明显的刚需和知识驱动特性。例如，消费者购买维生素 C 时，其决策过程往往与其对维生素 C 的知识以及是否是其当前需要，而不是基于多样化的兴趣选择。这意味着健康商品的推荐应当更多地依赖于知识导向和刚需满足。

2. 标品的特性及其对推荐系统的影响

泛健康商品，存在很大一部分标品。标品指的是有明确标准和约束，比如限定成分、规格或明确功效等的商品。比如 N95 口罩是标品，polo 衫是非标品。标品在 SKU（最小粒度商品）层面的差异性较小，消费者选择时的个性化需求并不显著，其个性化主要是在标品类别的选择上。而 LLM 对标品的理解是充分的，但无法对齐其对 skuid 的理解（一个标品包含成百上千的 skuid）。因此，LLM 结合健康推荐系统可以采用 two-stage 策略：首先推荐符合刚需和知识导向的标品，然后在标品下为用户推荐合适的 SKU。

3. 推荐系统的其他挑战

除了上述特点外，健康产品推荐系统还面临着其他挑战，如低频购买、用户稀疏行为、场景差异性大等。这些问题普遍存在于推荐系统中，需要通过精细化的算法和深入的用户理解来解决。

健康产品推荐系统在电商领域中占有重要地位，其成功实施需要对刚需和知识驱动的深入理解，以及对标品特性的有效利用。通过解决上述挑战，推荐系统能够为用户提供更加精准和个性化的健康产品推荐。

三、大模型推荐在电商场的落地实践

在电商推荐系统中，大模型技术的落地实践主要聚焦于解决用户个性化推荐的问题，尤其是在京东健康（JDH）这一特定领域。下面介绍大模型技术在电商推荐中的几个关键落地实践。

1. LLM4CB – 解决稀疏行为用户召回

（1）问题背景

在电商推荐系统中，新用户和低频用户由于行为数据不足，难以通过传统算法实现有效召回。这部分用户的推荐质量直接影响了平台的用户体验和业务增长。

（2）解决思路

利用大语言模型的世界知识：大模型能够根据用户的基本信息，如年龄、居住地和健康记录，推断用户可能的需求和兴趣点，这种能力有助于理解用户潜在的刚需和知识驱动的购买行为。
结合领域样本数据：仅依靠大模型的通用知识是不够的，必须结合特定领域的样本数据，以缩小世界知识与领域知识之间的差距，这要求对大模型进行任务对齐，确保推荐系统能够准确地响应用户的具体需求。
推理性能优化：在召回过程中，传统的 Item-to-Item（I2I）推荐可能仅需十几毫秒。然而，如果引入大模型进行推理，可能会导致显著的性能下降。为此，需要探索从离线到近线处理的升级方案，以减少覆盖率的损失并保证系统的响应速度。

（3）技术挑战

物料表达：大模型通常处理自然语言 token，而推荐系统中使用的是 ID。需要找到一种方法，使物料的表达既能够保持语义信息，又具有足够的区分度。
任务对齐：需要将特定领域的推荐样本与大模型的任务进行有效对齐，确保推荐结果的准确性。
推理效率：面对大模型可能带来的推理延迟，需要优化推理过程，以满足在线推荐系统对实时性的要求。

（4）实施策略

采用两阶段建模方法，首先利用大模型生成潜在感兴趣的产品名称，然后根据产品名推荐具体的 SKU。在生成产品名称（PU）时，通过过滤机制确保推荐结果与现有库存和用户需求相匹配。通过 Prompt 工程技术优化大模型的输入，提高模型对特定领域任务的响应能力。

（5）数学建模

\[ \text{SU} = \{ \text{sku} | \text{EE}(\text{pu}, \text{sku}) \geq \epsilon \} \]

\[ \text{pu} = G(\text{u, cxt}) | f(\text{P, G}) \geq \theta \]

其中，\( \text{SU} \) 表示给定标品p，召回用户 u 感兴趣的 sku 列表；\( \text{EE} \) 是筛选得分高的 sku 的方式；\( \text{pu} \) 表示生成式的方式产出“可能”的标品集合；\( f(\text{P, G}) \) 表示生成商品和真实商品的匹配度。

（6）系统实现

包括 Prompt Engineering、特征选择、样本选择、模型调优等步骤，以实现高效的个性化推荐。

LLM4CB 的建模采用两阶段方法：

第一阶段：产品名生成（PU Generation）
利用 LLM 生成可能感兴趣的产品名称集合，通过任务对齐全量调参 LLM 提高生成质量。首先，寻找到合适的 prompt，如下图是我们的 prompt engineering 的系统界面，不断的提示词模板优化得到最佳的模板；其次，用场域内的推荐样本构造为自然语言表达的数据，并填入 prompt 模板；接着，基于选定的大模型基模型，用转化后的样本做全量调参；训练好后的 model 经离线评估 ok 后部署到线上，用去重后的样本请求取得 pu 结果。
第二阶段：SKU 召回（SKU Recall）
在确定产品名后，通过评分机制筛选出用户可能感兴趣的 SKU。这里主要是用 EE 的打分方式，具体策略如 UCB，汤普森采样等都可以选择，不展开赘述。

其它说明：

①LLM 全量调参还是换 softmax frozen LLM，不同场景值得大家探索，为了对世界知识的最大保留，该场景选择了前者。

②性能优化：通过异步推理和 KV 存储，提高系统的实时性和覆盖率。

③样本多样性：确保样本选择的多样性，以引导模型学习。

④异步推理+KV 存储：对用户请求进行异步处理，使用键值存储方式，提高响应速度。

（7）结果与展望

通过 LLM4CB 的实施，显著提升了对稀疏行为用户的召回效果，尤其是在长尾或低频用户群体中。微调策略的优化不仅提高了推荐的相关性，也为模型在特定领域的应用提供了灵活性和适应性。我们期待通过持续的技术创新，进一步提升推荐系统的性能和用户体验。

2. DeepI2I – 扩展 I2I 模型

为了解决长尾场景下的推荐问题，我们采用了 DeepI2I 模型，这是一种扩展的 Item-to-Item（I2I）推荐模型。通过增加样本数量、参数量和 epoch，我们利用图神经网络（GNN）的随机游走技术来构造低频商品的样本，同时运用大型语言模型（LLM）进行数据增强。这种策略不仅提高了模型对低频商品的捕捉能力，也增强了模型对用户偏好的深入理解。

3. 大模型 CTR – 践行 Scaling Law

在点击率预测（CTR）模型中，我们通过增加模型的复杂度和计算规模，以适应长序列、多模态、多目标等复杂推荐任务的需求。这一策略体现了 Scaling Law 的应用，即通过扩大模型规模来提升性能。我们的 CTR 模型已经从存储密集型转向计算密集型，以处理更大规模的数据和更复杂的特征交互。

4. 开放性问题

最后，我们提出了一个开放性问题：生成式推荐范式是否有可能取代传统的多级过滤加判别式范式，并在电商推荐系统中大规模落地？电商推荐系统是一个复杂的系统性工程，涉及供给、分发、营销等多个方面，不是单一技术问题。虽然大型语言模型在推荐系统中显示出了潜力，但是否能完全替代现有的多阶段判别式方法，还需要更多的研究和实践来验证。

个人观点

AI 技术范式之争：历史上，数据驱动的方法取代了专家系统，因为专家系统无法解决某些问题。当前的推荐技术范式已经达到了一个相对成熟的水平。
电商推荐系统的复杂性：电商推荐系统不仅仅是技术问题，还涉及业务配合、供应链管理、分发策略和营销、平台生态等多个方面。
大模型的增益：大型语言模型对推荐系统有增益，但这并不意味着要完全摒弃现有的多级过滤的范式。未来的发展方向可能是结合 Scaling Law 和大型语言模型的优势，来解决推荐系统中的问题。

随着技术的不断进步，我们预计 Scaling Law 将在推荐系统中发挥更大的作用，推动个性化推荐技术向更深层次发展。

京东健康推荐团队通过大模型技术在电商领域的落地实践，展示了如何结合世界知识和领域知识，解决稀疏行为用户的召回问题，并通过技术创新不断提升推荐系统的性能和用户体验。