火山引擎VeCDP：如何0-1构建与应用标签体系-51CTO.COM

标签作为企业数字化营销的基石，在企业运营与营销场景下发挥着重要的作用，通过标签体系，企业可以更好地了解消费者的需求和行为，丰富用户画像特征，帮助企业优化产品设计和营销策略，提高产品的市场竞争力。因此，企业需要从业务场景出发，构建适用于自身业务模式和逻辑的标签体系，为企业的精细化运营及精准营销服务，进而深入挖掘潜在的商业价值。本次分享将介绍标签及标签体系的概念和应用，包括对业务对象的特征抽象和服务上层业务场景，以及标签体系的信息架构和分类设计思路。构建标签体系时需要兼顾合理性和灵活性，考虑可追溯性、实时性、权限管理等因素。标签体系的构建是一个完整的闭环，通过活动数据可以进行分析洞察，然后根据洞察结果留存好的标签，抛弃不相关的标签，形成企业合适的标签库。企业规划好的整套标签体系服务于各个业务部门，如果需要使用不同的标签，可以进行分类和授权标签，实现动态快速扩展。

一、标签及标签体系介绍

首先介绍标签和标签体系的基本概念。

火山引擎VeCDP的标签最终服务于上层的业务场景，例如营销、分析等场景。而标签体系是对标签的一种组织方式，对标签进行分类，形成一套可以长期稳定使用并且适用性较强的框架。

二、标签体系的核心设计思路

在建立整体的标签体系之前，第一步是做好标签的设计。

标签设计，需要梳理好整个数据的流程，业务的场景。

在做营销活动的时候，会用到两个核心对象，第一是标签，第二是群组。接下来介绍一下这两者之间的关联和区别。

标签主要是提取客户特征，对客户进行一些画像洞察。群组主要是针对某场营销活动，圈选某个客群进行营销和分析。前者是进行特征的抽取，后者是做服务与活动。由于标签是特征的提取，所以在系统中留存的时间会更长。而群组主要是为了某个活动，服务完该活动，其生命周期理论上就结束了。另外一般对于品牌方或者说企业主而言，标签是数据分析师或IT人员去构建的。而群组，可能更多的是运营这样的业务角色去使用。概括而言，标签更多是面向客户数据的抽象加工，群组是面向活动进行的精准的人群圈选。

在构建标签时，通常会用到三类数据：行为数据、属性数据和业务数据。

行为数据：是通过各个业务系统，或者其它第三方应用上的埋点采集得到的线上线下的数据。
属性数据：是用户的一些基本资料、会员属性、微信基本属性等等。
业务数据：比如订单类数据、消费类数据，或是客服的一些工单、咨询单之类的数据。

基于以上数据，可以通过标签规则或者模型去构建标签，基于这些标签，可以在上层构建分群。

构建标签体系的时候需要兼顾合理性和灵活性。合理性主要是从业务视角出发，而灵活性主要是工具的视角，需要满足各类业务场景。下面从四个细化的层面去介绍。

首先是可追溯性，指的是可以对标签做一些历史的回溯，通过洞察标签变化，可以了解到整个客群全生命周期的变化，同时也可以了解整个营销活动的执行效果。

其次是数据和计算的实时性，标签可以分为实时标签和离线标签。实时标签能够支持对营销要求更高的一些场景，例如金融行业储值金额达到一定数值的时候，需要实时去做一些营销，此时标签的构建是依赖实时数据，实时生产的。

再次是标签制作的灵活性，上文也提到在构建标签的一些数据和规则方面，执行频率都可以灵活配置。

最后是生产和使用流程的强可管理性，会体现在标签的权限方面，以及服务上下游的相关应用，例如对外提供的一些API，提供数据输出的能力，Kafka消息订阅的能力，记录标签的增删改查相关信息，标签的上下架操作，标签审批的管理等等。

三、标签体系建设流程与方法论

大部分客户在构建标签时会遵循一个标准流程，如下图所示。

第一步是明确需求，梳理业务场景和流程。之后就可以知道如何接入何种数据，上文也提到，接入的数据一般是包括属性行为，以及业务相关单据的数据。接入这些数据之后，接下来就可以构建规则，真正把标签构建出来，其中包括一些标签的分组以及层级的构建。标签构建之后，就可以去圈选目标人群，从而去做一些营销活动。对这些活动进行洞察，同时结合标签事件等各种信息就可以更好地去做标签管理，修改标签规则，重新上下架一些标签。其中也可以去做标签的价值评估，即哪些标签是更有意义的标签，标签后期的建设方向等。最后会产生优化策略，它会体现在新需求的输入，从而形成一个全流程的循环闭环。在企业内部，整个标签体系的构建，其实是一个持续构建的过程。

构建标签时，会遵循5W2H的分析方法论。

首先是What，即针对何种场景，例如客户生命周期场景或是会员营销场景。然后是Where，即依赖什么样的功能模块，例如是否需要一个算法标签或是基本的规则标签，是否需要依赖于群组的一些信息。第三是When，即什么时候需要上线标签。第四是Why，即构建标签的原因，例如需要做洞察或者营销转化，又或是需要服务于客户，做一些客户关怀。第五是Who，即谁构建标签，如前文所述，可能是业务也可能是IT相关人员，其所用的标签工具也会不同。第六是How，即如何构建标签，例如构建RFM标签、统计标签，或是普通规则标签。最后是How much，即构建标签能够产生多少业务价值。

从标签体系的整体设计来看，第一步是最底层的规划主体。此时需要去梳理各个主体对象，梳理对象主体之间的关联关系，梳理数据源和具体数据类型。接下来就是探查数据，包括前文讲到的基本属性、行为数据、订单数据等，数据是实时还是离线，如何去接入。数据梳理清楚之后，接下来是构建标签类目，这是更偏业务层的设计。数据产生之后，会先做一些探查式分析，从而可以了解客户群体是何特征，之后再去构建标签类目，拆分类目，最后需要把标签内容设计出来。整个设计标签的过程中，前期规划，内部对齐，标签的口径的对齐以及数据梳理，都是非常重要的。

接下来介绍标签内容和类目的设计。

上图中结合具体的业务场景，将客户按照不同的生命周期进行了分类，例如可以分为沉睡客户、潜在客户、活跃用户以及忠诚用户。有了这样的客户分类之后，就可以去做具体的规则定义。沉睡客户，可以定义为过去30天其浏览次数比较少的客户；潜在客户，可以定义为除了沉睡客户之外的那些没有互动的客户；而活跃客户是有一定互动的客户；最后忠诚客户是互动相对来说非常高频的，并且有邀约一些新的客户即老带新的一些行为。

于是就可以去定义清楚整个客户的生命周期，以及对应的规则。有了这些规则及客户标签的定义，就可以针对不同的客户有相应的处理策略。针对沉睡客户，需要对其进行激活；针对潜在客户，需要进行持续的互动；针对活跃客户，需要促成订单转化；最后对于忠诚客户，需要持续地让其产生复购。

接下来介绍标签体系的数据链路，具体包括VeCDP系统中数据采集的步骤和标签构建的方法。

首先要做标签相关数据的采集，需要连接外部各种各样的数据源。数据采集完成之后，需要做数据的加工处理，针对这些数据需要做ETL以及表间join操作。接下来是VeCDP系统中的一个核心能力，ID打通。会设计ID的优先级、生存策略以及参考关系，之后把各渠道ID做整体的融通。最后需要把数据落到VeCDP中，成为基础的属性数据，行为资料，以及业务订单的数据，还有一些其它的明细数据和维度数据。

主体又称实体或对象，针对不同的行业，规划出来的主体也是不一样的。例如汽车行业，通常将业务对象梳理成两个主体，即人和车。围绕着人的标签体系，包括基础属性信息，在一些媒体点位的互动行为信息，以及留资相关信息等。同时围绕车，会有一些汽车相关的信息，包括维修保养以及车联网采集到的信号信息。在其它行业，也是类似地，可以梳理出不同的主体。

接下来基于梳理出来的主体去构建标签。在火山引擎VeCDP中，提供了十几种标签构建的方法。其中规则标签是基于一些规则去组合，生命周期标签是围绕其生命周期去打标签。首末次标签是基于用户首次及末次行为去构建一些标签。偏好标签，需要统计用户行为信息，观察用户集中行为聚集在哪些方面，之后做一些排序，就可以得出偏好信息。

标签的更新频率，可以设置整体上是实时还是离线，如果是实时计算，理论上就是一个实时标签。如果是离线计算，可以去配置其更新类型，例如手动更新还是定时更新，执行的频率可以选择天级、周级或者月级等等。

离线标签和实时标签有着不同的适用场景，在规则和一些限制方面都会存在差异。从更新方式来看，离线标签会更强调手动更新或者按周期去更新，而实时标签则是实时计算，一般是由某个行为事件或者某个消息触发去做实时更新。从参与计算的数据来看，离线标签基本上是全量的业务数据都可以参与计算，而实时标签则需要考虑计算的性能，是有限的数据参与，针对一些时间序列数据，像订单数据和行为数据，可能会限制一定的时间范围，例如一天或七天内。从复杂性来看，离线标签复杂性相对会更高，实时标签相对低一些。从适用场景来看，离线标签主要用于画像分析，实时的要求不那么高。但是实时标签可能会在一些实时营销，当达到某个标准之后要实时地给用户发券或者是告警。

接下来介绍标签价值的评估。

在应用标签的过程中，可以采集到标签在系统中的使用信息，进行价值评估。首先是标签的覆盖量评估，包括标签覆盖数量和覆盖率。第二是标签值的分布，包括标签值随时间的变化以及趋势。第三是标签的使用热度，哪些标签是高频使用的，哪些是相对低频使用的。第四是标签稳定性，由于标签本身依赖于各种各样的上游数据，不同的上游数据会导致标签在实际计算的时候，整体稳定性是有差异的。第五是标签的关注度，主要统计标签收藏的相关情况。最后是标签优化率的评估，主要是指标签在持续应用的过程中，哪些标签可能会被频繁变更。通过评估以上维度，可以得知哪些标签是高频应用的，哪些标签是有价值的，哪些标签是可以持续去做一些优化的，从而指导后期标签体系的构建。

四、标签应用的价值与典型案例

接下来介绍标签应用的一些典型案例。

每个行业都有不同的标签体系，零售行业会根据用户画像和订单行为构建标签和画像；汽车行业关注线索到店、线上互动和市场活动等流程；金融行业主要基于客户交易、资产和负债情况构建风险评估和客户价值评估。除此之外，火山引擎VeCDP还会在一些泛互联网行业中应用，所以整个标签更体现其工具性。

首先来看一下汽车行业。

会按照消费者生命周期以及使用流程，去构建其标签体系。包括一些基本信息，还有一些行为的数据。行为数据包括线上行为以及线下行为，另外还有一些消费信息以及相关的售后信息。

由于汽车行业是高客单价的行业，所以会更注重售后的管理。另外，在一套标签体系下，不同部门关注的点是不一样的。销售部门会更关注线索、到店、下订、试驾这样的用户流程；运营部门则更关注线上互动，包括签到、评论、分享以及精品消费等等；市场部门会更关注整个市场活动的留资、下订行为。

接下来介绍零售行业。

零售行业相对而言标签会做得更加精细化。围绕用户画像，通过其订单互动行为，基础信息，去构建整体标签规则和画像。另外，零售行业除了使用第一方的数据，同时也会去采集第三方的数据做一些补充，然后去构建其完整的画像。除了用户画像还会做商品画像，商品作为一个独立的主体，围绕商品的一些基本信息、价格策略、库存信息以及售卖情况去构建标签和画像。最后还有门店画像，包括门店地理位置、类型、门店业绩以及在售商品等。在零售行业会利用各个主体之间产生的关联关系来构建一些标签，例如用户和门店之间，用户会有到店的动作，用户在门店中有消费动作，包括用户买了何种商品、浏览了何种商品，通过这样的一些关联关系的组合去做营销。

接下来介绍金融行业。金融行业标签大致有如下图所示的分类。

首先是原始信息，包括客户交易、客户资产、客户负债以及客户持有的产品情况。基于这些内容，可以去构建客户风险评估，以及客户价值评估，从而构建整个的标签体系。

标签体系的构建是一个完整的闭环，通过活动数据可以进行分析洞察，然后根据洞察结果留存好的标签，抛弃不相关的标签，形成企业合适的标签库。

在高客单价营销场景中，针对一些线索，会围绕线索做标签的打分，生成一些数字类型的标签。会有正向打分机制和负向打分机制。正分机制包括属性信息、信息完整度、最近的互动行为信息以及留资信息，还有客户本身跟销售员的互动信息。而负分机制主要包括客户在电话中明确拒绝，或者是有战败线索，此时会打上负分。最后会得到一个总分作为线索的评分。

精细化营销更多是体现在一些低价高频的营销场景，例如发放优惠券的场景。首先把一些客群批量圈出，围绕优惠券使用场景，比如最近180天用券次数，最近30天用券次数，近7天用券次数，以及客户对优惠券的敏感度。有一些客户可能会更关注低价优惠券，希望打折力度更大。基于优惠券使用的信息，可以给客户做一些标签画像，去服务于上层的营销场景。

基于标签可以去做一些分析洞察，比如客户行为分析、画像分析、流程分析等等。首先构建好标签，然后去做活动，之后会产生活动数据，基于活动数据，可以再做一些分析洞察。分析洞察后可以得知哪些标签可以促成转化，哪些标签跟整个活动效果是不相关的。从而可以把好的标签留存下来，去服务于下一个标签体系的构建。坏的标签就可以逐步抛弃掉，最终形成适合企业的标签库。

以上就是本次分享的内容，谢谢大家。

五、Q&A

Q1：正向评分是直接加工标签出分数，还是根据标签转化分数？

A1：这个是直接以标签作为分数，基于一些原始的信息，即前文讲到的一些属性信息，一些行为的统计信息，还有一些订单信息，去把这个分值打出来。这个分值最终是落在标签上，这个标签其实是一个数值类型的标签。

Q2：标签形成人群分类如何做触达，通过什么技术能触达，效果如何？

A2：先讲一下标签如何做触达，其实一般来说就是前文讲的一个CDP的系统里面更多会去构建标签和分群。如果实际去做触达的时候，一般来说会结合一个MA的系统。MA系统里面触达的时候可能会做一些短信，APP Push，或者微信模板消息等其他的一些方式做触达。整个CDP加上MA会形成完整的营销系统的闭环。像火山这边，是有一个像GMP这样的一个产品去做MA的工具。

Q3：关于标签评分，例如满分40分，打了24分，具体是如何评分的？

A3：很多时候在评分前，如前文所述，围绕评分这个事情其实是有一点偏主观，但也是有一定策略的。一般在做标签规划的时候，前期是先做分析，围绕分析，先去把整个客群的洞察做好。然后就可以知道整个客群大概的情况。基于大概的情况，例如先把整体行为的一些统计，一些数字类型进行分析，就可以知道大概的分布情况。从而就可以知道要判断哪个分值是属于高价值的，哪个分值应该是属于低价值，结合第一次判断好之后，做好这样的一个规则并且打分，并实际服务于营销，之后再基于营销的结果，反过来去倒推之前做的打分是否合理。

Q4：根据手机号做唯一标识会出现误差，怎么避免类似误差？

A4：一般来说跨渠道的数据打通主要依赖的是手机号码。然而手机号码有可能会存在一定的误差，但一般来说企业方会去规避这种误差的方式，就是通过手机号码去做验证码验证。我们也会基于像微信生态的Union ID，做一些跨渠道的打通，相对来说也会更准确一些。

Q5：跨客服的标签能复用吗？

A5：一般来说企业规划好的整套标签体系就是服务于各个业务部门的。当然如果说要在不同的部门使用不同的标签，会做好标签上层的分类，以及相关的一些授权。

Q6：标签是否可以实现动态快速扩展，业务在极短的时间，如一天内能否要求生成新的标签及人群圈选做推送？

A6：这个是可以的。我们的标签工具是可以让业务人员在短期内快速去构建，只要配置好规则，点击保存生成这个标签，可能在1分钟之内就会快速给相应的客群打好对应的标签，之后就可以直接服务于下游的人群圈选和推送。

Q7：如何保证标签的质量？

A7：主要是从两个方面，一是业务，二是技术和工具。业务方面就是前期要做好标签整体的梳理，在技术和工具方面，首先会保证其稳定性和性能以及规则的合理性。另外前文也介绍了标签价值评估的一套体系。围绕标签价值评估，可以持续去迭代整个标签的质量。

Q8：标签底层存储和计算使用的是什么框架和技术，能够无缝迁移到云环境吗？

A8：火山引擎VeCDP主要是提供整体系统的一个解决方案的交付。底层用于标签的存储和计算，使用的是ClickHouse，我们也提供了一个云环境去服务客户的。

Q9：业务使用标签时经常会对标签的技术口径进行确认，花费较长时间确认。你们会面临这样的情况吗，一般怎么避免投入大量的时间和问题？

A9：标签口径的确认，如前文所述，经常是需要去做好这样一个整体口径的对齐，以前我面对的一些客户，他们有一些比较好的做法，即他们会把标签做好一些拆解，然后做每个原子的描述的定义。比如说最近七天，他会清晰的界定最近几天是怎样的一个定义。如果是订单，就会定义哪些订单参与这个标签计算，例如消费金额为零的要剔除掉，下单时间在某个时间的要剔除掉等等。客户会做好整体描述沟通的一个文档。每次跟技术同学去沟通的时候，都是基于这样的一个中间文档去做沟通。所以后面在上层去描述其标签规则时也会非常的顺畅。

火山引擎VeCDP： 如何0-1构建与应用标签体系