如何基于数据科学进行用户兴趣分群？爱奇艺算法验证和迭代思路公开

作者：陆祁 2022-08-21 21:00:29

大数据新闻

数据科学家的能力主要由三方面：较强的数学功底和数字敏感程度、很强的问题解决能力、很强的业务沟通能力。

爱奇艺商业智能部门总监陆祁女士将介绍爱奇艺在用户兴趣分群上的探索和实践，主要介绍如何基于数据科学进行用户兴趣分群，如何基于事实数据生成用户兴趣标签，以及介绍算法验证和迭代的思路，最后介绍如何基于用户聚类的方法去做用户兴趣分群。

全文将围绕下面三点展开：

数据科学VS用户兴趣分群
基于事实生成的用户兴趣标签
基于内容聚类的用户兴趣分群探索

01 数据科学VS用户兴趣分群

首先通过下图介绍一下数据科学专家的能力范围。

注：图片来源于网络，侵权删

数据科学家的能力主要由三方面：较强的数学功底和数字敏感程度、很强的问题解决能力（包括数据分析、数据建模和数据处理等能力）、很强的业务沟通能力。

虽然数据科学家面对的业务是比较个性化的，但是我们今天将提炼出一个较为通用且具有借鉴意义的课题进行分享——用户兴趣分群，其本质是通过大数据的挖掘和分析，反映出用户对某个主题或事物不同程度的匹配价值和接受程度。其在互联网的各行各业中是比较适用的，例如电商行业、服务行业、内容行业等，也可以应用到一些算法场景提高其准确度和效果，例如广告搜索推荐、运营策略等。

02 基于事实生成的用户兴趣标签

1. 用户兴趣权重标签如何设计？

为了解不同用户的兴趣，采用最典型的方式就是给用户打标。基于不同业务的认知，所提炼出的维度是各异的，但提取的流程类似，例如爱奇艺平台这类内容行业通常按照以下几步提取用户兴趣偏好标签：

基于业务认知研究主题：选取不同兴趣的主题，例如视频内容、视频类型、相关明星、播放频道、播放时间以及价格等。
基于以上主题梳理用户行为：用户会通过一些观影和互动等行为表现出对某一主题的倾向性，例如明星偏好，则可能存在关注、发弹幕评论、观看相关视频等行为。
选取合适的维度和计算方法量化用户行为：对于用户各种显式和隐式行为，需要一套合理的指标体系进行量化。针对观影行为，可以从观影次数、观影时长等维度进行量化。
数据处理：在建立这个体系的过程中，对不同的指标采用加权、降权、时间衰减、起始值等方法使量化结果更加合理科学。经过数据权重等方法处理后，得到一个总和的权重，还需要将其进行0—1的归一化处理，如果有负向指标，可以做-1—1的置信度处理。

通过以上方法得到的结果，便可以反应用户的偏好倾向，得分越高表示该用户对于该主题的偏好更加强烈。

2. 用户兴趣标签的验证与迭代

上面介绍了生成标签的流程方法。在使用该标签之前，我们还需要审视一下这个标签的适用性，例如上述提到的可比性问题。将标签引入到不同业务之前需要进行审视和验证。

对于标签的验证，主要有两种方法：

盲测用户问卷：收集用户反馈，例如用户对明星喜好进行判断，便可提供整个权重的校准依据，基于此检验排序性，判断标签合理性。
线上不同场景ABTEST：上线权重标签前可在内容过滤、排序等模型上进行测试，利用实验对照组观察能否带来明显提升或正向效果，利用ABTEST的结果修正权重设计。

权重标签更多的是做用户中长期的偏好计算，对于即时爱好的计算需要采用事实标签。权重标签也存在一些短板：

权重解释性：权重标签生成过程中，难免进行一下复杂的数据处理，使得该标签对于业务方而言不够简单明了。
每天全量decay：有些数据会融合各种衰减计算，使计算复杂度更高。
不适合实时场景：对于每天实时发生的行为数据难以及时更新到权重标签中去，这样的数据标签存在滞后性。

对于一些个性化的场景，会考虑给业务方提供事实标签，增加属性维度，方便其更灵活使用。

3. 用户兴趣结构化事实标签

上图展示了事实标签，主要分为了显式行为和隐式行为，基本可以通过这些行为去判断用户对某一内容或主题的偏好程度。其中显式行为可以直观表现用户的偏好，而隐式行为虽不能直观表现用户态度，但对于应用场景而言是有意义的统计数据。

03 基于内容聚类的用户兴趣分群探索

我们通过以上方法对用户进行打标之后，如何针对性的做一些内容推送或者运营策略？

1. 用户兴趣圈层分类方法

我们常用的对用户进行分组的思维通常是基于用户属性，根据人口统计学的思想分为少男/少女、男青年/女青年、中高龄等人群。这种分法对于内容平台不够有针对性，因此可以采用第二种圈层方法——基于内容属性进行兴趣圈层。具有以下优势：

通过算法发现看似完全不同内容之间意想不到的关联性。
对于内容运营，可为人工运营场景提供数据支持。
对于内容供给规划方，可将纯业务经验驱动转变为大数据驱动。

2. 圈层聚类方法

对于圈层聚类，首先是对内容进行聚类，如果两个内容的受众群体的重合度较高意味着内容的相似度较高，可划分为同类内容。利用用户圈层聚类系统，可客观、精准定位目标人群，具有以下优势：

客观观影行为：基于用户真实播放行为为依据，避免了打标过程中人的先知经验判断，更加客观。
颗粒度可控：圈层划分粒度可根据业务需求进行选择，例如规划可以选择粗粒度，运营方则可选择更细的粒度。
数据获取便捷：可利用算法自动聚类圈人。

通过经典的相似度计算方法可以计算不同内容专辑的用户相似度，但在实际应用中会碰到很多问题，因此通过以下修正提升任意两个内容之间重合度的可比性：

修正1：修正内容体量差异、频道规模差异对用户重合度计算的影响。
修正2：修正内容上线时间早晚、上线时间间隔对用户重合度计算的影响。

在上述优化方法的基础上，还可以采用层次聚类等聚类方法进行更深层次的优化。通过剪枝线的滑动，控制内容聚合的颗粒度，通过计算两两内容的用户相似度，将用户最相似的内容先聚在一起，依次向上聚集。

以上是一个例子，分别采用了内容聚类方法和标签的方法进行的分类。左图是对于某兴趣圈层用户聚类得到的内容，右图是通过传统标签打标分类得到。可以发现左图的综合归纳的内容和用户特征是可以推测出用户的核心诉求，即求追经典、优质IP等，内容形成一定价值体系，在娱乐同时可以向观众输出观点、产生火花碰撞。与右图的纯类别分类方法相比，更加符合用户需求。

04 问答

Q1：怎么衡量用户标签的业务落地和收益？

A1：在爱奇艺团队中主要应用在两个方向，一个是人工运营和规划上，一个是与算法结合的一些模型应用上以及用户画像挖掘等方向。收益可以体现在利用线上ABTEST得到数据效果，以及人工运营的投放和活动上。

Q2：用户聚类和推荐算法之间是个什么关系？

A2：用户聚类的结果会作为信号直接输入到算法团队，但在推荐层面，模型中其实已经包含大量用户行为和内容选择的信号输入，原始数据中，已经体现了这类用户行为的数据信息。这个内容聚类更多是从业务的角度，相对于打标的方法帮助业务方更好理解其聚类过程。

Q3：如何甄别用户在某兴趣圈层是否为核心人群或边缘人群？

A3：如采用传统权重标签的方法，可以直接通过权重就能表现标签的偏好程度。而对于内容聚类的层面，例如二次元，天然形成一堆相似内容，运营便可以精准投放到该类内容背后的用户。

Q4：一些高热度节目会不会对于用户重叠度分析上带来偏差？

A4：这个问题就是上文提到的关于内容体量的相似度修正，对于体量特别大和特别小的内容需要计算两两内容用户重合度的基准值（期望），去除内容体量的影响。

今天的分享就到这里，谢谢大家。

责任编辑：张燕妮来源： DataFunTalk

数据管理