译者 | 李睿
审校 | 重楼
YouTube Shorts、Facebook Reels和TikTok等短视频平台的迅速崛起,彻底颠覆了人们消费数字内容的方式,每日吸引全球范围内数以亿计的用户沉浸其中。这些平台依靠先进的推荐系统,通过提供个性化的视频建议来吸引用户。然而,将短视频和长视频放在一起排序时将会面临一个重大挑战:时长偏见。
与传统的推荐系统依赖于明确的用户行为(例如点赞或分享)不同,视频平台主要利用观看时间和完成率作为衡量用户参与度的指标。这种转变源自直接用户反馈数据获取难度的增加,从而使得观看相关指标成为了评估用户兴趣的有效替代手段。然而,这种方法引入了一种固有的偏见,即短视频与同样引人入胜的长视频相比更受欢迎,因为它们自然具有更高的完成率。例如,如果用户在一个30秒的视频中观看了15秒(50%的完成率),但在一个2分钟的视频中仅观看了30秒(25%的完成率),推荐系统可能会错误地将前者视为更具吸引力的内容,并因此更倾向于推荐短视频,尽管这两个视频对用户来说可能同样有趣。这种对短视频的系统性偏好不仅影响了整个生态系统,降低了用户满意度,限制了内容多样性,并影响了创作者制作长视频的积极性。
要解决这个问题,不仅要调整参数,还需要对用户行为模式、内容消费动态以及视频时长与用户参与度之间的复杂关系有更细致的理解。随着短视频平台持续塑造数字娱乐的未来,解决时长偏见问题对于维护一个既能有效服务用户又能满足创作者需求的健康内容生态系统来说至关重要。
无论是机器学习工程师,还是视频平台的产品经理,还是对探索喜爱的视频应用幕后运作机制充满好奇的用户,本文都将帮助人们深入了解解决时长偏见的理论基础和实践策略,从而创建平衡、公平和有效的推荐系统。
理解视频推荐中的时长偏见
根据视频推荐平台所侧重的用户参与度指标不同,时长偏见会以两种不同方式表现出来。如果一个系统倾向于优先考虑完成率,它将系统地推广短视频,因为用户更有可能完成较短的视频。与其相反,如果观看时间是主要指标,那么长视频就会获得一种不公平的优势,因为用户自然会在长视频上花费更多的时间,而无论他们的实际兴趣如何。
这种偏见产生了几个下游效应:
1.推荐算法通常难以公平地评估不同长度的视频。例如,60秒的新闻摘要可能与15秒的突发新闻具有相同的价值,但有偏见的参与度指标可能无法捕捉到这种等效性。
2.当推荐系统忽略了符合用户兴趣的高质量长视频或短视频时,用户体验就会受到影响,因为视频长度会影响用户参与度指标。
3.内容创作者经常感到有压力要调整视频长度以获得更好的的传播效果,即使这会影响内容质量。例如,教育创作者可能会将10分钟的课程分成几个更短的片段,从而影响学习流程。与其相反,一个可以在几秒钟内最好地传达的简短笑话可能会被不必要地拉长,从而削弱其影响力。
在现实世界的平台上解决时长偏见需要采用一系列复杂的技术解决方案,这些解决方案考虑了用户跳过或者重放内容的实际观看模式,不同用户群体的注意力跨度不同,以及需要规范不同视频长度的用户参与度指标。任何解决方案都必须在服务于数百万用户的实时推荐系统的约束下运行,同时平衡多个相互竞争的目标,例如用户参与度、内容多样性和创作者公平性。
解决时长偏见的技术解决方案
时长偏见带来的挑战促使研究人员和行业从业者开发各种创新方法来解决这一问题。以下探讨一下近年来出现的解决方案的主要类别。
观看时间标准化
解决时长偏见的最简单方法是将绝对观看时间标准化,以便在不同长度的视频之间进行更公平的比较。播放完成率(PCR)是一种常见的方法,它衡量用户观看视频的百分比,而不是根据原始观看时间进行衡量。然而,尽管这种方法简单,但存在明显的局限性。它倾向于过度偏爱短视频而不是长视频,并且没有考虑到视频重放等行为,将所有完成的视频观看视为同样积极的信号,而不考虑视频的实际长度。
为了克服这些局限性,研究人员开发了更细致的方法来整合多种信号,例如观看时间、观看百分位数和基于时长的分层。其中一个指标是Root Log Time Percentile Watch (RLTPW),它将绝对观看时间与视频完成的百分位数混合在一起,以创造一个更平衡的测量方法。当在一个服务于数百万用户的真实平台上进行测试时,这种方法不仅提高了用户参与度和用户保留率,还确保了不同长度视频的推荐分布更加均衡。
尽管取得了这些进步,但人工定义这些指标是一项劳动密集型的工作,可能与平台的具体目标并不完全一致。随着平台的发展,对智能自动化系统的需求越来越大,这些系统可以根据具体情况动态生成高质量的参与标签。
反事实观看时长
一种解决时长偏见的更先进方法是评估反事实观看时长(CWT)——这实际上是问,“如果视频无限长,这个用户会看多久?”(KDD'23论文,KDD'24论文)。例如,如果用户完整地观看了一个15秒的短视频,与观看3分钟视频的2分钟相比,这并不一定意味着更感兴趣。CWT通过模拟假设的“假设”场景来解决这个问题——如果视频时长不是限制因素,估计用户会在哪里停止观看。
CWT将视频时长的直接影响(希望去除的偏见)与其间接影响(关于用户偏好的真实信号)分开。它没有假设观看时长和视频时长之间存在线性关系,而是将观看视频视为一种经济交易,用户投入的时间和注意力来获得感知到的娱乐价值。这种方法估计每个用户的自然停止点,而不考虑视频的实际时长。
在大规模的实际应用时,CWT通过平衡用户之间的短视频和长视频内容,显著提升了推荐系统的整体质量。然而,它需要仔细调整反事实估计,并假设合理的用户行为,而这些假设可能并不总是准确的。此外,该方法还增加了一些计算复杂性,尽管其可行性已在生产环境中得到了证明。
CWT通过结合行为经济学和机器学习技术来应对推荐系统中的复杂挑战,展示了其强大的能力。通过跨学科的视角重新审视用户参与度,这种方法为解决时长偏见提供了令人信服的解决方案。
基于分位数的时长感知方法
基于分位数的方法对用户如何与不同长度的视频进行交互进行建模,已经成为解决视频推荐中时长偏见的有效解决方案。这些方法不是将观看时间或完成率作为成功指标,而是分析用户观看模式在视频时长范围内的全面分布情况。这可以进行更准确的比较,并确保推荐反映真正的用户参与度水平。
该领域的一个关键创新是基于时长去混杂的分位数(D2Q)框架,该框架将视频分成时长组,并学习回归模型来预测每个组中的观看时长分位数。这使系统能够理解,例如观看30秒视频中的15秒与观看3分钟视频中的15秒代表不同的参与程度。通过将视频分组并分析其独特模式,D2Q有效地减少了视频时长的混淆效应,同时保留了用户行为的洞察力。
在此基础上,观看时间增益(WTG)指标将用户的观看时间与相似时长的视频的平均观看时间进行比较。例如,如果用户通常观看60秒视频中的40%,那么已经观看50%的用户就会获得积极的WTG,这表明无论绝对观看时间有多长,用户参与度都高于平均水平。
例如条件分位数估计(CQE)等更先进的技术,通过估计分布中的多个点来模拟观看时长预测中的不确定性。例如,1分钟的视频只观看10秒的概率为30%,观看10~30秒的概率为50%,观看更长时间的概率为20%。这种细致入微的理解有助于更有效地捕捉不同的用户参与模式。
去偏多语义提取标签(DML)是另一种具有前景的方法,它直接解决了事件标签创建过程中的时长偏见问题。通过应用因果推理,该方法生成固有地考虑视频时长影响的训练标签,从而消除了复杂的后处理或额外模型架构的需求。
这些方法在主要平台上的离线评估和实际A/B测试中都展示了令人印象深刻的结果。它们的好处包括不同长度视频的更平衡的推荐,更好地代表真实的用户偏好,更公平地对待内容创作者,以及改进的用户参与度指标。
然而,实施这些方法也面临着一些挑战,例如定义适当的时长桶以及管理实时分位数估计的计算开销。尽管存在这些复杂性,但它们在处理视频时长与用户参与度之间复杂关系方面的能力使其成为现代推荐系统不可或缺的工具。
多目标优化
多目标优化已经成为解决视频推荐系统中时长偏见的有效策略,同时保持高用户参与度。最近的研究强调了从互补的角度解决这一挑战的三种创新方法。
VLDRec引入了一个双目标框架,同时优化原始观看时间和视频完成率。通过同时考虑这两个指标,该系统能够识别出真正吸引人的内容,而不受时长限制。例如,一个被完整观看的2分钟视频,可能比用户通常在3分钟后放弃的10分钟视频排名更高,即使后者累积了更多的原始观看时间。
SWaT采用一种更细粒度的方法,将视频划分为时长桶,并在每个桶中分别建模用户行为模式。这使得系统能够更公平地比较用户参与度——例如,将一个5分钟的视频与其他5分钟的视频进行比较,而不是与所有时长进行比较。该框架明确地模拟了不同的用户观看行为,例如顺序观看和随机搜索,生成了比原始观看时间更丰富的参与信号,以实现更平衡的推荐。
LabelCraft通过自动标签生成来解决这个问题,并将其表述为一个双层优化问题。该方法学习生成训练标签,帮助推荐模型针对多个指标进行优化,包括观看时间、明确的用户参与度(例如点赞或分享)和用户留存率。通过平衡这些目标,LabelCraft确保推荐不仅引人入胜,而且多样化和以用户为中心。
这些方法的共同之处在于,它们成功地实现了对视频时长这一关键信号的平衡考量,避免了其过度主导推荐过程的情况。它们并没有完全去除时长的影响,而是将其与其他指标整合在一起,以产生一个公平而有意义的内容排名。实证研究结果表明,这些方法在关键指标(包括用户留存率、公平性和用户参与度)上始终优于单一目标基准。
然而,多目标优化引入了一些复杂性,例如确定每个目标的适当权重以及确保多个竞争目标下稳定的训练动态。VLDRec和SWaT使用谨慎的规范化策略来解决这些挑战,而LabelCraft采用动态平衡方案。计算效率是另一个考虑因素,因为优化多个目标会占用大量资源。诸如基于桶的归一化(SWaT)、对抗性训练(VLDRec)和元学习(LabelCraft)等技术已经被提出来缓解这些挑战。
对于从业者来说,从更简单的基于桶的归一化方法开始可能是一个有效的切入点。在此基础上,采用更先进的元学习或对抗技术可以带来更多的好处。除了时长偏见,这些方法还为解决推荐系统中其他形式的算法偏差提供了模板,证明了多目标优化不仅仅是一种工具,而且是在不牺牲用户参与度的情况下构建公平有效平台的一种思维方式。
技术挑战和未来方向
随着视频推荐系统的发展,在有效解决时长偏见方面出现了新的挑战和机遇。以下是研究人员和从业人员需要关注的关键领域:
1.多模态信号集成
虽然目前的方法主要关注观看时长,但现代视频平台收集各种用户信号,例如分享、点赞、评论和留存模式等,这些信号均受到视频时长的影响。例如,短视频因其快速消费的特性往往获得更多分享,而中等长度视频的留存率可能与极短或极长内容有所不同。未来系统需要智能地整合这些信号,考虑到时长如何独特地影响每个指标,而不仅仅依赖于观看时长。
2.扩展规模的挑战
随着数以百万计的用户和不断发展的内容库,消除时长偏见的计算需求极为庞大。解决这个问题需要高效的近似算法、分布式计算策略和方法来降低问题的维度,同时保持有效性。
3.跨平台的适应性
每个视频平台提供不同类型的内容和用户行为。稳健的去偏方法必须适应这些变化,而不需要完全重新设计。这可能涉及针对平台特定内容分布量身定制的灵活时长桶,跨平台共享见解的可转移学习模型,以及与独特平台目标相一致的可定制目标函数。
4.内容冷启动问题
当考虑到时长偏见时,很少甚至没有用户参与度数据的新内容构成了独特的挑战。传统的冷启动解决方案可能无法确保在时长组内进行公平比较。未来的解决方案可能包括使用内容特征的更好的初始化策略、快速学习方法以快速建立可靠的基于时长的分位数,以及在冷启动和成熟内容之间无缝转换的混合模型。
解决这些挑战将确保视频平台能够提供公平和引人入胜的个性化推荐,同时跟上用户行为和内容多样性的发展趋势。
结论:实现生产系统的最佳实践
1.定期监测时长偏见指标
持续跟踪不同视频时长桶的原始和标准化用户参与度指标,以便尽早识别系统偏差模式。例如,如果短视频突然在推荐中占主导地位,这可能意味着需要调整消除偏见策略。构建和使用健壮的监控工具来适应不断变化的用户行为和内容趋势,确保系统随着时间的推移保持有效。
2.采用渐进式去偏方法
避免试图一次性消除所有视频时长的影响。从简单的策略开始,例如基于桶的归一化,它根据时长对视频进行分组,以便进行更公平的比较。随着时间的推移,基于数据洞察力和A/B测试来完善这些方法。增加的复杂性应该通过关键指标的明显改进来证明。
3.培养创作者的透明度
这些方法为创作者提供关于视频时长如何影响内容分发与性能的清晰洞察与指导。这使他们能够制作高质量、引人入胜的视频,从而增强整体内容生态系统。定期评估去除偏见对用户参与度和创作者公平性的影响,努力在不损害任何一方的情况下实现平衡。
原文标题:Duration Bias in Video Recommendations: A Complete Guide to Fair Content Ranking,作者:Amey Porobo Dharwadker