如何实现基于内容和用户画像的个性化推荐-用户画像描述

基于内容和用户画像的个性化推荐，有两个实体：内容和用户。需要有一个联系这两者的东西，即为标签。内容转换为标签即为内容特征化，用户则称为用户特征化。

因此，对于此种推荐，主要分为以下几个关键部分：

综合上面讲述的各个部分即可实现一个基于内容和用户画像的个性化推荐系统。如下图所示：

标签库

标签是联系用户与物品、内容以及物品、内容之间的纽带，也是反应用户兴趣的重要数据源。标签库的最终用途在于对用户进行行为、属性标记。是将其他实体转换为计算机可以理解的语言关键的一步。

标签库则是对标签进行聚合的系统，包括对标签的管理、更新等。

一般来说，标签是以层级的形式组织的。可以有一级维度、二级维度等。

标签的来源主要有：

对于内容的关键词提取，使用结巴分词 + TFIDF即可。此外，也可以使用TextRank来提取内容关键词。

内容特征化

内容特征化即给内容打标签。目前有两种方式：

针对机器自动打标签，需要采取机器学习的相关算法来实现，即针对一系列给定的标签，给内容选取其中匹配度***的几个标签。这不同于通常的分类和聚类算法。可以采取使用分词 + Word2Vec来实现，过程如下：

用户特征化

用户特征化即为用户打标签。通过用户的行为日志和一定的模型算法得到用户的每个标签的权重。

隐语义推荐

有了内容特征和用户特征，可以使用隐语义模型进行推荐。这里可以使用其简化形式，以达到实时计算的目的。

用户对于某一个内容的兴趣度(可以认为是CTR)：