小红书 NoteLLM-2：用于推荐的多模态表征

amei2000go

发布于 2025-2-6 15:23

浏览

0收藏

一、背景

本文中我们继续介绍小红书用于多模态场景笔记推荐的 NoteLLM-2。

对应的论文为：[2405.16789] NoteLLM-2: Multimodal Large Representation Models for Recommendation [1]

二、摘要

LLM 在文本理解方面展现了卓越能力，现有研究也已探讨了其在文本 Embedding 任务中的应用，然而，利用 LLM 辅助多模态表征任务的研究尚不多见。本文作者旨在探索 LLM 在多模态 Item-to-Item（I2I）推荐中增强多模态表征的潜力。

如下图 Figure 1 所示，一种可行的方法是将多模态大模型（MLLM）迁移至表征任务中（Figure 1 下部分）。然而，预训练 MLLM 通常需要收集高质量、大规模的多模态数据，导致训练过程复杂且成本高昂。这使得社区高度依赖开源 MLLM，阻碍了针对特定表征场景的定制化训练。

因此，作者设计了一种端到端的训练方法（Figure 1 上部分），能够整合任何现有的 LLM 与 Vision Encoder，以构建高效的多模态表征模型（Multimodal Large Representation Model，MLRM）。

小红书 NoteLLM-2：用于推荐的多模态表征-AI.x社区

初步实验表明，采用端到端方法微调的 LLM 往往会忽视图像内容。为克服这一挑战，作者提出 NoteLLM-2，专为多模态表征设计。作者提出了两种增强视觉信息关注度的方法：

第一种基于 Prompt 视角，将多模态内容分离为视觉内容与文本内容，采用多模态 In-Content Learning（ICL）方法，指导 LLM 同时关注两种模态并聚合关键信息。
第二种方法从模型架构出发，利用 Late Fusion 机制直接将视觉信息融入文本信息。

大量实验已证实提出方法的有效性。

三、引言

3.1 问题定义

与针对文本场景的 NoteLLM 类似，NoteLLM-2 主要用于多模态 I2I Note 推荐任务。Note Pool 为 N={n1, n2, …, nm}，其中 m 表示 Note 数量。每条 Note 包含：标题（Title）、主题（Topic）、文本内容（Content）和图像（Image）。ni=(ti, tpi, cti, vi) 表示第 i 条 Note。该任务目标是从 N 中选出与 Query Note 相似的前 k 条 Target Note。

3.2 数据集构建

和 NoteLLM 类似，采用共现（co-occurrence）机制基于用户行为构建相关 Note 对。该机制基于一个假设：经常一起阅读的 Note 可能是相关的。具体来说，作者统计了用户查看 Note nA 后点击 Note nB 的次数。同时，为了区分不同用户共现的贡献，为不同的点击分配了不同的权重。具体的计算方式如下所示：

小红书 NoteLLM-2：用于推荐的多模态表征-AI.x社区

其中 SnA -> nB 表示从 Note nA 到 Note nB 的共现得分，Nu 表示用户 u 点击的 Note 集合的数量。归一化可以防止活跃用户可能的无差别点击而导致的误导。在计算完所有的 Note 对共现得分后，就可以构成共现得分集合Sni：

小红书 NoteLLM-2：用于推荐的多模态表征-AI.x社区

随后，从集合 Sni 中过滤掉得分超过上限 up 和低于下限 low 的异常 Note。最后，从过滤后的集合中选出共现得分最高的 t 条 Note，作为与 Note ni 的相关 Note。

作者从平台获取了一个真实世界的多模态 I2I 数据集。从两周内收集的用户行为数据中随机选取相关 Note 对，用于构建训练数据集。训练数据集中 10% Note 对用于验证集。然后，从接下来一周的 Note 中随机选取，形成测试集的 Note Pool，排除任何已存在于训练数据集中的 Note。训练集包含 150 万条 Note 和 110 万对 Note 对。测试数据集包含 50 万条 Note 和 2.1 万对 Note 对。如下图 Table 6 为其详细的统计信息：

小红书 NoteLLM-2：用于推荐的多模态表征-AI.x社区

为更准确地评估 MLRM 的多模态表征能力，而非过度依赖文本模态，作者在测试数据集中收集了包含简短 Note 的配对数据。将 Token 长度少于 50 的 Note 定义为 Short Note，这类 Note 约占测试 Note 总数的 10%。并进一步分类：

将包含短 Query Note 的对定义为Short Query Pair，数量为 5620 对。
将包含短 Target Note 的对定义为Short Target Pair，数量为 5582 对。
PS：如果 Query 和 Target Note 都比较短，那么该 Note 对会同时位于两个类别中？

3.3 Note 压缩提示构建

和 NoteLLM 类似，Note 压缩 Prompt 如下图所示，只不过多了 <IMG> placeholer，在实际使用时需要替换为对应的 Vision Embedding：

小红书 NoteLLM-2：用于推荐的多模态表征-AI.x社区

四、方案

作者发现未经 Pretrain 而 End2End 训练的 MLRM 表现欠佳，主要原因在于 LLM 处理后容易忽略 Vision 信息。因此，作者的设计更加关注 Vision 信号，为此，作者提出 NoteLLM-2，该框架包含两种从不同角度考量的方法：

第一种：从 Prompt 视角出发，称为mICL。此方法通过调整 Prompt 来改变对 Vision 信息的 Attention 模式。
第二种：从模型架构角度出发，将 Late Fusion 与 Vision Prompt 相结合。通过延迟 Vision 信息的融合，增强 Vision 信息对最终 Representation 的影响。

改进后的整体框架如下图 Figure 2(b) 所示。具体而言，给定 Note ni，mICL 机制并不尝试将多模态信息压缩为一个单一 Token，而是将多模态 Note 拆分为两种模态。随后，采用类似于 ICL 的方式来聚合多模态信息：

小红书 NoteLLM-2：用于推荐的多模态表征-AI.x社区

作者将 Note 压缩 Prompt 重新表述成如下所示，其中 <IMG_EMB> 是一个特殊 Token：

小红书 NoteLLM-2：用于推荐的多模态表征-AI.x社区

在利用 LLM 处理多模态 Embedding 后：

选择相关的 Hidden State 来表示 Note，记作 nvi。由于 Decoder 的 Causal Attention 机制，nvi 仅包含 Note 的 Vision 信息。
同时选取最后一个 Token 的 Hidden State 作为多模态 Note Representation，记作 nmi，包含 Vision 和文本信息。

Late Fusion 机制采用原始 Vision Embedding 来增强 Note Embedding，这避免了因 LLM 空间导致的文本偏差，并融入更多原始 Vision 信息。其中的 Vis Emb 是通过 Vision Encoder 对整幅图提取的视觉特征，比如 CLIP ViT-B 中 [CLS] Token 对应的 Hidden State。随后采用线性层将这些特征转换到 LLM 空间，记作 v ∊ ℝht，采用相同的门控机制，将原始 Vision 信息融合进两个 Note Embedding 中：

小红书 NoteLLM-2：用于推荐的多模态表征-AI.x社区

其中小红书 NoteLLM-2：用于推荐的多模态表征-AI.x社区和表示融合的 Note Embedding。[⋅,⋅] 表示连接操作，而 𝑾 和 𝒃 是可学习的参数。⊙ 是逐元素乘积。

接下来，采用两个融合的 Embedding 进行对比学习，如下所示：

小红书 NoteLLM-2：用于推荐的多模态表征-AI.x社区

其中小红书 NoteLLM-2：用于推荐的多模态表征-AI.x社区是来自 Vision Note Embedding 的损失，而是来自多模态 Note Embedding 的损失。最终损失的计算方式如下：

小红书 NoteLLM-2：用于推荐的多模态表征-AI.x社区

其中 α 是超参数。在评估中，我们使用小红书 NoteLLM-2：用于推荐的多模态表征-AI.x社区作为 Note Embedding，其包含多模态信息。

五、实验&结论

5.1 实验配置

在构建相关 Note 对时，将共现分数的上限 up 设定为 30，下限 low 设定为 0.01，并将 t 值设为 3。为了遵守 Contex 长度限制，对超过 20 个 Token 的标题进行截断，对超过 80 个 Token 的内容进行截断。在微调实验中，为了公平比较，添加了一个线性 Projector，将 Note Embedding 的维度降至 64。Batch Size B 设置为 128（在 8 x 80GB A100 上训练，每个 GPU Batch Size 为 16），每 Batch 包含 256 条 Note。温度参数 ε 初始化为 3。更多训练超参数如下图 Table 7 所示，训练中使用 DeepSpeed Zero-3 训练（由于 Qwen-VL-Chat 每个图像有 256 个 Vision Embedding，因此在 32 x 80GB A100 训练，每个 GPU 的 Batch Size 为 4）：

小红书 NoteLLM-2：用于推荐的多模态表征-AI.x社区

为了评估 MLRM 的表征能力，作者根据 Query Note 的内容对 Note Pool 中的所有 Note（不包括Query Note）进行排序。并根据 Target Note 在排序列表中的位置计算召回率。在测试数据集上报告 All Pair、Shore Query Pair 和 Short Target Pair 的 Recall@100、Recall@1k 和 Recall@10k。

5.2 微调的 MLRM 的多模态表征性能

使用几个开源的 MLLM 进行 zero-shot 实验，如下图 Table 10 所示，发现 zero-shot 不足以使 MLLM 适应表征任务，其性能甚至比基线 BM25（The Probabilistic Relevance Framework: BM25 and Beyond Contents [2]）还要差，因此有必要对 MLLM 进行微调以用于表征任务。

小红书 NoteLLM-2：用于推荐的多模态表征-AI.x社区

作者设计了三种端到端的 MLRM 来检验表征训练方法：

MTomato-Base：使用 Tomato（作者基于 LLaMA 2Continuous Pretraining 的 LLM，其缺乏视觉感知能力）作为 LLM，CLIP ViT-B作为 Vision Encoder，以及一个随机初始化的Q-Former作为 Connector，以提高效率。
MQwen-Base：使用Qwen-Chat替换 MTomato-Base 中的 Tomato。
MQwen-bigG：使用ViT-bigG替换 MQwen-Base 中的 CLIP ViT-B。

如下图 Table 9 所示为不同模型详细的配置以及推理速度对比：

小红书 NoteLLM-2：用于推荐的多模态表征-AI.x社区

作者将这些模型的 Vision Embedding 长度设置为 16，以提高效率。为了进行比较，选择两种预训练的 MLLM：BLIP-2 和 Qwen-VL-Chat 进行对比。这些模型中的所有 Vision Encoder 都被冻结以支持更大的 Batch Size。

结果下图 Table 1 所示，可以观察到：

首先，基于 LLM 的 MLRM 显著优于现有基线。All Pair 评估中，Qwen-VL-Chat 在 R@100 上相比传统的 METER Co-attn 取得 10.78%（78.54/68.22）的提升。
其次，端到端的训练表征方法可以增强模型的多模态表示能力。All Pair 评估中，MQwen-bigG 相比 Qwen-Chat 在 R@100 上提高 6.31%（77.64/73.03）。
然而，当 Vision Encoder 很小，例如 CLIP ViT-B 时，多模态感知的增强并不明显（73.03 -> 74.02）。
最后，尽管使用相同的 Vision Encoder 和 LLM，MQwen-bigG 比 Qwen-VL-Chat 更有效率（上图 Table 9 的11.5 ->35.2/36.8），但性仍然存在差距（下图最后两行）。

小红书 NoteLLM-2：用于推荐的多模态表征-AI.x社区

5.3 性能评估

作者在三种 MLRM 上对 NoteLLM-2 的所有组件进行实验，以验证方法的有效性。此外，还进行了消融研究——仅采用 Late Fusion 策略，即仅通过 Late Fusion 整合图像与文本信息，而不将图像 Embedding 输入至 LLM。

实验结果如图 Table 3 所示：

首先，Vision Encoder 相对较小时，NoteLLM-2显著提升 MTomato-Base 和 MQwen-Base 的整体性能。
同时，NoteLLM-2主要增强了 MQwen-bigG 在 Short Pair上的表现。
其次，mICL 提升了所有模型的性能，而Late Fusion 在 Vision Encoder 较小的模型中效果更为显著。
此外，仅采用Late Fusion是一种直接且高效的融合方式，但在 Vision Encoder 能力更强时可能成为限制，因为它可能无法充分有效地与 LLM 交互，导致性能下降。
最后，MQwen-bigG 结合 NoteLLM-2 的表现仍不及 Qwen-VL-Chat，特别是在 Short 对方面。作者认为这归因于MQwen-bigG（16 个 Vision Token）与Qwen-VL-Chat（256 个 Vision Token）在 Vision Token 个数上的显著差异。

小红书 NoteLLM-2：用于推荐的多模态表征-AI.x社区

5.4 增强型 MLRM 的显著性评分

为进一步探究 NoteLLM-2 对 MLRM 的影响，作者展示了增强型 MLRM 在显著性分数上的差异。原始微调方法的显著性分数为 Sv、St 和 So，而增强微调方法的显著性分数为

小红书 NoteLLM-2：用于推荐的多模态表征-AI.x社区、和。作者将视觉 Note 压缩 Token 视为 Vision Embedding Ev 的一部分。

实验结果如下图 Figure 4 所示，所有增强型 MLRM 的表征均强化了对图像的直接关注，同时在浅层减少了对 So 的重视，而 St 则基本保持不变。这一现象归因于 mICL 采用相同的压缩 Prompt 对两种模态进行压缩，通过识别图像信息中的相似压缩模式，mICL 能够增强多模态表征对图像的集中度，这与 ICL 的作用机制相似。

小红书 NoteLLM-2：用于推荐的多模态表征-AI.x社区