近日,第二十二届中国国际软件博览会(简称“2018软博会”)第五场全球软件产业发展高峰论坛“大数据赋能实体经济”在北京展览馆召开。快手科技平台研发和大数据负责人韦彬发表主题演讲“快手的数据驱动实践”,分享中提到数据驱动是快手公司文化的一部分,每个岗位的员工都需要用科学系统化的方法解决问题。
(快手科技平台研发和大数据负责人韦彬在大会上发表主题演讲)
用大数据、AI等技术 提升每个人独特幸福感
韦彬举了两个快手用户的例子,解释快手如何用科技提升用户的幸福感。四川大凉山悬崖村的用户杨阳,杨阳通过快手向全世界展示家乡的美丽景色,帮助家乡的土特产找到了销路,带领村里人脱贫。还有一位的独居的老人,老人在快手展示拉二胡的视频积累了8万多粉丝,体会到网友的关注、关心,快手帮助老人消除了一点点孤独感,提升了一点点幸福感。
韦彬介绍,要做好提升每个人独特的幸福感,需要用到大数据技术、AI技术,实现数亿级别用户和50亿海量视频的精准匹配。此外,快手采用AR等前沿技术给用户带来等新奇体验,提升用户体验。
快手简单UI背后是复杂的AI系统。从视频生产到分发的各个环节,AI技术贯穿其中。在视频生产阶段,快手自研的YCNN深度学习引擎及AR算法,通过人脸识别、姿态估计、肢体识别等技术给用户提供新奇的视频特效。视频上传后,会通过AI来识别和理解视频中的人物、场景、语言、音乐等各种丰富内容。
用户理解环节,快手会通过大数据去理解每一位用户的兴趣偏好,不仅基于视频内容,还基于点赞、评论、观看时长、用户关系等用户行为数据,帮助快手来更好的理解用户。除了理解用户的兴趣偏好,还会理解用户潜在的兴趣,帮助用户探索更大的未知领域。
快手的视频分发环节,背后是一个超大规模的实时推荐系统,它基于深度学习模型,使用万亿级的特征大数据,实现了全链路的实时在线学习。能够将用户实时行为秒级更新到模型,通过检索、预测、排序等子系统实现视频与用户的精准匹配
AI是快手大脑 数据驱动是心脏
产品是快手的面庞,工程是快手的整个身躯,AI是快手的大脑,数据驱动就是快手的心脏。韦彬介绍,之所数据驱动可以称之为快手的心脏,因为不管是算法、产品还是工程,在快手均重度依赖数据,需要数据体系的持续支撑。
快手的数据驱动,有自己的一套价值观,韦彬把它总结为三个关键词。***个是文化,数据驱动是快手公司文化的一部分,在快手要求每个岗位的同事,需要用科学系统化的方法解决问题,数据驱动是系统性方法里最基本的。
第二个是赋能。希望公司任何一个岗位的同事,只要对数据有需求,只要能够通过数据改进工作,都可以方便高效地使用快手数据平台及工具获取和使用数据。
第三个是洞见。数据驱动应该帮助各个不同层级,不同岗位的同事做业务上的决策。也就是说,关注的是从数据上,能够发掘出有洞见的知识及有价值的结论。
数据赋能 用数据驱动建设短视频社区
韦彬分享了快手在数据驱动实践过程中的经验积累。经验之一,如果不能很好的监测和量化数据,就不能去管理和改进。韦彬认为,使用科学的数据驱动方法,是快手建立短视频社区以及社区获得高速发展的重要原因。
快手很早建立实时的数据指标监测体系,通过定义核心指标、监测核心指标来指导社区优化,逐步建立正反馈的健康社区。比如,通过监测原创视频的一些核心指标,不断提升原创视频的比例,并刺激原创视频生产,形成良性循环。
快手的普惠价值观,希望所有人都能在这个平台上分享生活。韦彬介绍,快手把这个价值观落地成了具体的可以数据驱动的指标。比如,经济学用基尼系数反应贫困差距的核心指标,快手的社区系统里面,也会建立类似的核心指标,监测整个系统的中心化的程度以及“贫富差距”程度。
经验之二,不同职能团队需要不同的数据赋能方法。韦彬以决策人员、产品经理、算法\策略工程师、后端工程师四个不同的岗位为例,分析了不同的数据赋能方法。
决策人员更关心宏观的核心指标,以及随时间的变化趋势,一旦发现异常会希望能下钻分析和找出原因,针对决策层面的数据需求,快手建设了配置化报表平台、留存分析、多维分析等一系列工具。
对于产品经理,他们对数据系统的关注点在于怎么使产品的迭代更加快,怎么样更好的做产品上的决策。针对产品的诉求,快手建立了高效的A/B Test平台。快手的A/B Test的平台能够支持同时并行,互不干扰做大量并行的小流量实验。每天同一时刻有上百个实验同时进行,最终选择客观指标证明更优的方案,产品迭代的效率得到数量级的提升。
大数据怎样给AI体系最核心的开发人员赋能?韦彬介绍,快手的算法策略工程师,每天在花大量时间分析和回答各种偏微观的数据上的问题,这些问题通常具有不确定性和可探索性,快手针对这些场景建设了一个交互式多维分析系统。
系统的实时性能够实现亚秒更新,实时接入;系统具有非常强的交互性,在90%的场景可以一秒钟之内返回结果。此外,该系统提供丰富的多维分析能力以及可视化能力。
对于后端的工程师的赋能,快手建立一个基于服务间调用大数据的调用链分析监控系统,在快手复杂的服务依赖树中,实时发现问题,确定影响指标,定位问题范围,以让后端工程师对服务质量尽在掌握。
经验之三,韦彬分享了平台重要的基本功。快手的数据增长非常迅速,超大规模存储与计算设施的建设考验平台的基本功。在监控、调优开源系统的基础上,快手对开源系统做了二次开发的深度优化,并搭建平台,实现对超大规模集群的使用。
此外,随着数据规模的极速增长、数据从生产到消费的链条变长变复杂,给数据体系带来多方面的挑战。快手重视数据治理,在质量治理、产出治理、安全治理、成本治理4个方面,并持续投入,通过工具链研发、流程改进、指标驱动等方法为快手大数据持续健康发展做好保障。