关于 A/B 实验中策略长期效果评估方案的研究-51CTO.COM

一、实验长短期效应产生的原因

A/B 实验已经成为了一个非常普遍的量化策略效果的方法。但由于实验时长限制等原因，实验人员往往只能检测到策略的短期影响或短期指标。以 UI 设计为例，当上线一个新的 UI 设计之后，通过 A/B 实验可能发现 DAU 上涨了 1%。但 DAU 这种短期指标的上涨可能是新奇效应导致的，当用户的新鲜感过去后，就无法判断新的 UI 设计在三个月后是否仍具有影响。当以收入作为长期指标时，收入可能在短期内不会发生显著改变，但由于学习效应，当新的 UI 设计提高了用户体验时，收入这一指标可能在三个月之后发生显著提升。这就要求实验人员通过短期实验来捕捉长期效果，高效地评估策略，提升评估效率，避免有效策略的漏判。

导致实验长短期效应产生的原因大体分为两类：

一类是外生性原因，例如，市场达到供需均衡状态是需要一定时间的；或者是策略受到时间影响，如季节变化、周中周末等；还可能受到突发事件的影响。

另一类是内生性原因，例如，用户学习效应（积极的结果会强化导致该结果的行为，比如说用户体验会逐渐变好强化）、新奇效应（策略效果会因新鲜感的降低而减弱）及首要效应（用户会因适应策略而导致策略效果增加）；还包括推荐系统个性化推荐（推荐系统是个性化的，推荐会因用户过去的行为不同而推荐不同的内容，久而久之会产生差异）；可能没有一个逐渐改变的过程，只是因为实验时长有限，不能观察到中长期北极星指标的变化，如 30 天留存的变化；以及 A/B 实验的用户圈定存在人群偏差，如活跃用户比不活跃用户更有可能被纳入实验的现象，从而导致估计的效果存在偏差。

二、工业界探究策略长期效果的方案

针对实验长短期效应产生的内生性原因，工业界提出了相应的解决方案，共包含 7 种。接下来将逐一介绍每种方案。

1、用户学习效应方法

用户学习效应是指积极的效应会被强化，而消极的结果会逐渐衰减。因此在评估策略效果的时候要同时考虑策略的短期效果和因用户学习效应带来的长期效果。例如增加广告 adload，即每个人可以看到的广告条数增加，在短期内可能会使得曝光增加，即短期收益 ∆RPM 出现上涨；同时该策略会影响用户的长期体验，并且这个用户体验需有一定的时间学习，使得长期收益〖LT〗_rpm 下降。因此，策略效果要考虑因用户学习效应带来的长期效果。

谷歌在 2015 年设计了一种可量化长期用户学习效应（User learning effect）的实验方法，建立短期指标变化与长期学习效应影响之间的关系，以实现通过短期可测量的指标来预测长期收益。

具体做法是设计一个 CCD（Cookie-Cookie-Day）实验，该实验共包含 3 个实验组，分别为长期实验组、对照实验组和 CCD 实验组。其中，长期组在实验期间始终受策略影响，积累学习效应，对照组是没有策略作用，CCD 实验组是将该组用户随机划分成若干份，每天抽取一份使其当天受到策略影响而其余时间不受策略影响。

传统的标准流量实验，只是有长期实验和对照实验，通过对比长期实验前期和后期效果其实无法捕捉用户的学习效应，因为得到的结果可能包含很多与学习效应无关的影响，如系统效应，季节效应，周末效应，后续上线策略的交互作用等。因此需要多一个 CCD 实验，在第 d 天短期接受策略的组，通过比较第 d 天 CCD 组和长期组，可以“抹去”策略带来的短期效果，于是两组的差异则来自于长期效果，从而达到评估长期效果的目的。

当捕捉到每一天的长期效果后，有如下两种应用方式。第一，通过指数函数拟合来外推长期效果；第二，通过短期指标的变化来预测长期的学习效应影响。

然而，该方法仍存在一些局限性。第一，基于 cookie 的方式并不稳定，或者存在一些用户行为的改变，可能会导致对长期学习效应的低估；第二，在进行指数拟合时，学习速率并不一定是固定的；第三，策略的其他短期指标仍存在探索空间；第四，该方法本身的开发和探索成本较高。

2、个性化推荐方法

2023 年谷歌提出实验长短期的差异除了受用户学习影响外，还受到推荐系统个性化推荐效果的影响。个性化的推荐系统向用户展示的物品（广告）会因其过去的行为而异，而这又与用户之前所接受的策略影响有关。因此，长期策略组的用户受到长期策略影响而被推荐的物品/广告会与短期组不一致，所以长期效果的结果中还会带有因为不同个性化推荐效果的影响。

文章构建的因果图如下，Xi 代表用户行为（比如说点击），S 代表用户观测到的系统状态（比如说网页的展示），W 代表用户是否有策略影响，U 代表用户行为偏好（无法观察），Y 是最终效果，可以看到当前的行为既受到当前用户行为偏好的影响，也受到当前系统状态的影响，而系统状态则受到策略和过往行为的影响。

在此情况下，策略的总体效应是由短期效应、用户学习效应和个性化推荐效应三方面共同决定的。通过对 CCD 实验进行改进，即可评估出上述三部分在 t 时刻的效果，从而建立与t的关系，进行外推，得到长期总体提升效果

谷歌共提出了三种 CCD 改造方法，本次分享以 CCD-Switch 方法为例进行阐述。相比于 CCD 实验，CCD-Switch 方法增加了一个实验组，该实验组接受长期策略的影响，但被系统推荐时，该组用户接收到的广告会被替换成对照组中“相似用户”接收到的广告，保证该组用户的推荐不受其历史行为的影响。在此设定下，就可以通过对比四个实验组的结果来得到总体效应的三个部分，从而推断出策略的长期效应。

下面是一个应用该方法的具体案例。

3、短期代理指标方法

这是一个业界比较常用的做法，当实验时长有限，不能观察到长期北极星指标效果（如 30 天留存），选取可以代表长期效果的短期代理指标，在策略的优化和效果的评估时均可直接关注该短期代理指标，作为实验策略对北极星指标是否有显著影响的依据。代理指标的选择步骤共分为如下三步：第一步，根据业务逻辑选择大量代理指标，这个候选代理指标需要满足以下条件：与北极星指标有高相关性；是可能被实验策略撼动的指标；适用于实验策略覆盖的业务场景；第二步，通过模型和相关度分析，圈出若干个跟北极星指标关联度高的候选代理指标，进一步精简候选代理指标；第三步，通过实验回测的方式，找出最敏感的代理指标，如长期指标显著的实验中，代理指标显著比例最高的代理指标。

短期代理指标方法已经在业界广泛运用。

然而该方法也存在一些明显的局限性。首先，单一的代理指标可能不足以表征长期效应；其次，可能存在代理指标明显提升但长期效果不显著的问题；第三，代理指标的筛选只考虑了相关性而未检验因果性。

4、代理指数预测方法

代理指数预测方法是针对单一短期代理指标不足以表征长期效应这一问题而提出的，其核心思想是利用多个短期代理指标来拟合长期效应，本质上是将短期中间成果对长期效果进行回归预测值作为长期效果的代理指标，更大程度地利用已有的信息。策略对效果指标的长期作用效果可以反应在：策略对多个代理指标的短期作用效果，可以通过实验数据获取；还有多个代理指标和长期效果指标之间的关系，可以通过观察数据获取。

在使用该方法时，需要注意满足如下三个假设：

Unconfoundedness，即没有混杂因素同时影响 W 和 Y，S。
Surrogacy，即代理变量充分表征 W 对 Y 的影响，在代理变量给定时，W 和 Y 独立。此处可尽可能引入合适的代理变量，以捕捉 W 对 Y 的作用路径。
Comparability，即在代理变量给定时，实验数据和观察性数据结果指标 Y 分布相同。因代理指标 S 和 Y 之间的关系是根据历史数据获得，所以要用此来预测实验中 T 对 Y 的长期效果，需保证此假设成立，这样回归模型才具有泛化性。

该方法在领英、网飞等公司被广泛运用，而该方法的局限性在于三个假设导致的模型预测、特征选择以及数据同质三方面的难度较大。

5、分期预测方法

该方法将总时间划分为一系列时间窗的加和，根据上一阶段的代理指标 S、本阶段的策略 W、用户协变量，建立对该阶段 S 与结果 Y 的预测，不断重复嵌套，得到一系列的预测，直到到达想要的预测时间点。为了实现这一目标，需要满足两个重要假设。假设效果指标受到用户特征、当期的策略和过往的策略的共同影响，因此引入代理指标表征过往策略对效果指标的全部影响，并且假设每一期的影响效果都是同分布的。

分期预测方法的局限性主要表现在个体预测难度大、时间预测较难、同分布假设较强等方面。

6、观察数据方法

2021 年微软提出实验中 user learning 效应主要来自于新奇效应或首要效应，新奇效应为前期因有新鲜感等原因效果增加后因新鲜感降低而效果衰减，首要效应为因用户逐渐适应而效果增加。如微软将邮件由 outlook 图标改为邮件图标，发现第一天 ctr 有明显上涨，但这个涨幅在逐天减少。

基于上述发现，微软提出 t 时刻的期望效果满足固定策略与用户学习效应组成的线性方程表达式，并基于 DID 思想，实现对用户学习效应的无偏估计。

该方法能用于快速判断短期实验是否存在新奇效应或首要效应，若存在，一方面可以拉长实验周期持续观察，另一方面可以利用时间序列分析外推长期效应。该方法非常简单，没有实验开发的成本。

然而，该方法的主要局限性在于可能有其它外部因素使得预估有偏；并且对期望效果的线性表达式过于简单，可能不符合真实情况；另外，时间预测较难，可能受到周期性的影响。

7、人群偏差调整方法

2019 年微软论文表明重度用户可能对实验结果产生偏差，影响实验结果泛化性，提出一种用于偏差调整的估计量。重度用户偏差（heavy-user bias）指频繁用户比不频繁用户更有可能被纳入实验的现象，从而导致估计的平均治疗效果存在偏差。

论文基于系列假设，发现重度用户偏差通常与实验的长度 k 成反比，借鉴 jackknife 的思想，构造出更为无偏的估计量。这个方法假设比较强，该文作者也在探索放开部分假设的方法。业界也针对这个问题有其他方法，如根据子群占比进行权重调整，使得实验周期内样本分布与总体分布一致。

以上介绍了七种方案，实验人员可以根据实际的业务情况选择合适的方案或进行优化。

三、业务场景案例

最后，分享一个业务案例，以期引发大家思考。排序的目标是追求匹配效率最大化，一般会通过收益（如 GMV 等）来表征匹配效率，对于有转化的用户，GMV 可以表征匹配效率。但对于非转化用户，为了更好的度量匹配效率，需要将该用户的其它行为比如点击、点赞、评论、快滑等行为也纳入考量之中。通常如果某策略 GMV 没有变化，但用户其他行为有所改善，那通常会认为新策略有一定效果。然而，当 GMV 的变化与用户行为表现不一致时，该如何判断哪个算法更好呢？我们尝试了前文中的七种方法，但每种方法都有其局限性，因此我们也在继续探索适合业务场景的方案。