解码智能推荐：多模态大模型在网易云音乐的创新应用-51CTO.COM

一、背景介绍

1. 背景

大语言模型作为人工智能领域的前沿技术，近年来取得了显著进展，并且在众多领域得到了广泛应用。除了主打文本形态的大语言模型之外，能够处理文本、图像、音频和视频等多种模态数据的多模态大模型，正以其强大的内容理解与个性化生成等能力引领着行业变革，也为音乐领域的不断优化创造了更多可能。

在音乐推荐场景中，包含了丰富的多模态数据，比如歌词文本、专辑图片、音频，都是天然的应用大模型的阵地。目前云音乐推荐的核心场景包括：

每日推荐：是列表式推荐，主要的推荐形式是每日更新。
私人漫游：是流式推荐，是一种实时更新的推荐形式。
UGC 歌单：属于歌单推荐类型，UGC 歌单是基于用户生产，歌单中的内容是千人一面的；MGC 歌单是机器生产，其内容千人千面，不同的用户会看到不同的结果。

除了上述场景，还有私人定制、心动模式等其它一些场景。

云音乐推荐场景是云音乐的核心业务，是促进用户增长、提升用户粘性的核心手段。同时，场景众多，可控占比高，因此对推荐系统提出了更高的要求，也带来了一些挑战。

首先是马太效应的问题，1% 的歌曲占据用户大部分的播放歌曲 PV 量，存在严重的数据倾斜。推荐系统是基于用户行为去进行建模的，因此数据倾斜会导致对长尾歌曲分发的打压，形成一个不好的推荐生态。

另外，新内容的冷启动，以及新歌的分发效率也面临挑战。云音乐每天会生产大量的新歌，这些新歌都是没有用户播放行为的，对于个性化的分发系统来说，也同样天然会去打压这些新内容，因此如何去做好新内容的冷启动，以及如何提升新歌的分发效率，也是需要解决的问题。

针对上述问题，大模型的兴起与发展提供了比较好的解决方案。首先，音乐中包含了大量的多模态特征，比如专辑封面图片、歌曲歌词，还有歌曲的基础属性（如歌曲名、歌手语种、曲风、乐器和奖项），还有用户的一些热门评论，以及音频信息，这些信息都可以通过多模态大模型进行多模态表征的抽取，并应用到推荐系统中去。

基于大模型的多模态音乐表征能为推荐系统带来的最大帮助就是提效。

首先，可以全方位地生成音乐内容表征，来加深推荐系统对音乐的理解能力。
第二，可以缓解马太效应，提升长尾歌曲的分发效率，让更多优质的长尾歌曲能够分发给用户。
第三，缓解新歌的冷启动，能够让新歌能够及时被分发出来展示给用户，以此来改善云音乐的推荐生态。

2. 难点

在推荐系统中基于大模型进行多模态表征的抽取，主要面临以下难点：

基于 LLM 的多模态表征生产方面的难点主要集中在两部分，一是 prompt 的设计以及构造；二是基于大模型的多模态表征稳定生产链路的搭建，实现天级别的多模态表征的抽取，以及天级别的覆盖新歌的多模态表征。
大模型知识与推荐领域对齐方面，多模态表征和推荐系统的 ID-base 的表征是存在差异的，所以将多模态表征与 ID 表征对齐也是非常重要的一项工作。

3. 成果总结

基于多模态大模型的多模态表征抽取已应用于推荐系统中的核心推荐场景，包括每日推荐、私人漫游、歌单推荐、长音频推荐等。目前在各项指标上取得了显著效果，人均播放时长增长 3%，点击率增长 3%，歌单分发数量增加 50%，新歌分发效率提升了 3%，长音频曝光人均播放时长提升了 4%。

二、整体框架设计

1. 系统框架

系统框架的关键词为：自底向上，协同统一。整体分为三层：数据层、特征层、应用层。

数据层又分为两部分，首先是天级别定时调度更新歌曲的基础属性，比如用户的评论、专辑封面、歌词、音频等一系列信息。然后基于基础属性设计 prompt 的构造，包括歌曲文本的 prompt 的构造，依赖于歌曲基础属性、用户的评论以及歌词信息。

特征层：通过模型仓库中对大模型的选择来实现多模态表征的特征抽取，并进一步去做数据降维，最后进行 faiss 离线的数据校验，保证数据降维之后的 embedding 表征的正确性。

应用层：提取并降维后的 embedding 目前主要应用在召回侧和统一精排模型中。召回主要侧重于新歌以及长尾歌曲的分发；统一多场景的精排模型能够及时地覆盖到全场景，主要设计的就是多模态的对齐模块，目前是已经覆盖到包括音乐推荐、歌单推荐、长音频推荐等一系列核心业务。

2. 基于大模型的多模态表征抽取

下图中展示了多模态表征的生产链路，主要通过 Hugging Face 下载大模型，比如 LLaMA、Baichuan 等，然后依赖于底层的数据调度，并行处理多模态 embedding 表征的提取，接着进行离线数据降维，再进行数据验证，最后提供给线上使用。

3. 模型架构

模型架构采用基于 LLM 的开放世界知识空间与推荐领域的端到端的对齐方式。在大模型的知识空间下的表征和私有推荐领域下的表征是存在空间差异的，所以对齐模块是主要需要去做的工作。

以下结构图是在歌单中的一个精排模型的多模态融合的架构。第一个是通过语言大模型对于歌单文本的简单抽取 embedding 的表征；第二个是通过视觉大模型对于图片的表征抽取，获取到多模态表征 embedding 来表征用户在歌单行为的兴趣，然后同时建模到统一歌单精排模型中。

三、技术方案

接下来介绍一些技术方案的细节。

1. Prompt 构造

首先是基于大模型的多模态表征抽取。以一首歌曲为例，歌曲文本的 prompt 构造主要包括以下几部分：

instruction：歌曲的简介，包括歌曲的基础属性，如曲风、语种等一系列信息。
用户的乐评以及乐器，比如小提琴、钢琴。
歌词信息。
歌曲的图片特征和音频特征

这些都作为大模型的输入。

2. 特征抽取

使用多 worker 的方式并行处理数据，加速推理速度。目前使用 Baichuan 大模型进行文本抽取，使用 Vit-base-patch 进行封面抽取，使用 MERT 进行音频抽取，应用到排序模型以及召回中去做新歌和长尾歌曲的分发。

3. 离线验证

接下来介绍一些离线验证的 case。首先是基于文本的百川语言大模型提取的召回结果，通过对用传统的基于行为的协同过滤的召回结果和传统的 NLP 模型关联出来的结果去做对比，发现传统的 NLP 模型更多偏向于字符的匹配和文字的相似度，而大模型召回的结果则会更多地抓住文字中对情绪的感受。对于情感的理解，在推荐系统中，特别是音乐推荐系统中是非常重要的。

第二个 case 展示了大模型在世界知识上的能力，能够更好地捕捉到与“节假日”的相似度，检索的歌单的效果要好于经典的协同过滤算法以及传统的 NLP 召回的结果。LLM 相比传统的语言模型，能够运用世界知识和推理，更好地产生广泛的关联性的构建，比如对情绪、诗意、民俗的理解，对于推荐系统的精排模型是非常有价值的。

另一个 case 是针对视觉大模型的召回结果，基于传统的协同过滤召回的结果，直观上来看和召回源是非常不相似的，更多是基于用户行为的召回。而基于视觉模态特征关联出来的结果，不管在曲风上，还是图片的相似度上，都做到了更高相似度的召回。

4. 大模型与推荐域空间对齐

多模态融合精排对齐建模，主要工作如下：

融合精排建模：基于多模态表征的用户行为序列的兴趣建模，多模态表征是不参与到精排模型的梯度更新的。
多模态表征映射层：引入了多模态表征映射层来实现多模态表征与推荐系统的 ID 表征的空间对齐。
构建辅助网络：通过构建辅助 loss 的方式来实现更好的对齐。
对比对齐方式：使用对比学习的方式来实现构建 user-user、item-item 的对齐方式。
二阶段建模：解决在预训练多模态对齐中模型训练不充分以及多模态表征融合和筛选的问题。

四、LLM 助力音乐推荐业务

接下来介绍一下 LLM 助力云音乐推荐业务的进展。

1. 歌曲推荐

云音乐首页中的封面推荐场景（主要是日推封面和私人漫游封面）对于模块点击是非常重要的，引入封面的多模态数据可以有效助力首页模块的点击率提升。

歌曲基础信息、乐评、乐器、奖项、歌词、音频信息可以助力歌曲的多样性分发以及新歌分发，进而优化整个推荐生态。

在精排侧基于多模态大模型的特征增强，可显著提升个性化服务水平。

以下简单介绍一下融合的方式：

构建多模态特征行为序列：基于歌曲的基础属性、歌词、评论等数据融合成内容文本表征，基于歌曲封面抽取图片表征，再加上音频表征，综合这些多模态表征，从多维度构建 user emb。
辅助网络下的 user/item 的多模态与 ID 特征对齐：基于多模态表征的用户兴趣向量，结合辅助网络来实现多模态表征与用户行为序列的 ID 表征的特征对齐。包括参数共享，以及辅助网络输出的中间向量，输入到推荐的主塔中，以此来进一步加深多模态信息和精排推荐模型的信息融合。

这些工作已全量更新到核心推荐业务中，对人均播放时长、首页 UCTR 以及新歌分发效率均有显著提升。

2. 歌单推荐

另外一块核心业务是歌单推荐。可以非常直观地看到，推荐歌单的封面和标题文本都是由用户自主选择和创作的，蕴含了丰富的个性化信息，是用户情感和审美的体现。因此在歌单场景下使用多模态大模型对封面和文本进行提取，可以更好地获取用户的情感和审美的特征，从而提升个性化能力和新歌单分发能力。

歌单推荐系统融合多模态表征，与歌曲建模其实是异曲同工的，基于统一的歌单的推荐精排大模型，在构建好多模态辅助网络后，也快速应用到了各类歌单推荐场景，显著提升了歌单的分发数量。

3. 长音频推荐

长音频推荐包括宝藏播客、有声书模块、音乐播客模块等，含有丰富的多模态信息，比如图片、声音、长音频声音的简介等等。

通过上述由多模态大模型实现的多模态表征抽取应用到统一精排长音频的推荐系统中，使人均播放时长、长音频的分发效率和长音频的分发数都得到了显著的提升。多模态表征和推荐系统中的 ID 表征的对齐模块，也是参考了歌曲推荐系统的对齐模块，实现了复用。

五、未来展望

最后介绍一下未来将开展的主要工作。

空间对齐方式的进一步探索
引入对比学习的方式实现对比对齐，构建 user-user、item- item 的对齐方式，结合精排端到端的进一步探索。
二阶段建模
预训练多模态对齐模型解决训练不充分等问题；多模态数据对线上负担较大，因此需要提升多模态表征融合与筛选的能力。
更多多模态大模型的应用探索
比如利用 LLAVA，同时输入多模态数据，直接实现表征的融合。

目前，多模态表征已深入融合到了我们的统一精排模型中，未来将进一步深入挖掘多模态表征，加强对多模态音乐内容的理解，并融合入推荐系统中，使推荐系统个性化分发能力得到更大的提升，建设更好的音乐推荐生态。