【51CTO.com原创稿件】2016年11月25日,由51CTO.com主办的WOT2016大数据技术峰会在北京粤财JW万豪酒店召开,50多位来自阿里、腾讯、百度、京东、小米等知名企业的大数据领域资深技术专家齐聚大会现场,将在两天的时间里与逾千名一线IT技术人员直面交流,分享经验。
在WOT2016大数据技术峰会的主会场,【友盟+】CDO李丹枫做了《从用户行为数据透视大数据商业密码》的演讲。以下是他的演讲实录:
说到大数据肯定先要介绍所谓的大数据到底是什么数据?这个数据里头包括了几个部分:
***,友盟+的APP统计服务,服务了将近一百万个APP,所以友盟+是有APP的用户行为数据,就是APP用户什么时候启动使用?使用时长?这些信息的数据。
第二,网站的信息,网站的内容,用户的来源,搜索词友盟+都有涉及。友盟+每天会收集240亿的数据,这个体量是友盟+多年积累才能达到的。
最近的例子是在刚过去的双十一,当天友盟+一个广告效果,监控的产品实际上监测到了人民币34亿的广告投放。友盟+每天能够触达中国社区每天活跃设备是达到了13亿,所以基本上来说,如果在中国你是一个比较正常设备的话,有很大的机会我们是会监测到部分行为的。
今天主要分享的这三个内容,主要都是基于数据,友盟+做了挖掘的工作和应用的实践。
我觉得作为数据来说,最重要的是连接,因为你只有把数据连接才能产生价值,任何独立的数据点其实用处都不是很大的。对于友盟+来说,最核心的数据是用户数据。刚才提到了友盟+有APP的使用数据,有网站的浏览数据。你能想象,如果我们把移动端的数据跟PC端的数据结合起来,对一个人的行为可以有更完整了解。
友盟+根据数据做了几个事情:
***个,是人口学信息。包括年龄、性别,还有加上他的地理位置这些信息。那么这些信息,实际上会通过一些标识数据,用这些标识数据做模型训练,做出这个模型就可以对全量的数据进行预测。用预测的结果,用到友盟+的应用当中。
第二个,是行为信息。这个行为信息,其实包括了线上行为信息,移动端的APP使用行为和PC的浏览行为,实际上友盟+现在已经开始进入线下这个领域,收集人的进店行为,你去哪个商场逛,你进了哪个店,这些行为把它收集起来,跟友盟+的线上行为打通。所以友盟+行为数据包括线上和线下,当然线下可能还没有线下的体量大,但是现在的增长也是比较可观的。
第三个,更重要的实际上是通过这些数据,会找到一些关系特征,其实这里包括了人与物的关系,人与世界,人与空间,人与时间,和人与人的关系。大家可以想一下,比如说一个广告主要做一个活动,我做这活动是不是可以找到,比如过去做的活动,对这个活动有兴趣的人都是什么人群?可以把历史的数据和你现在要做的关联起来。这个不是有一个固定的标签体系,这样可以比较灵活的去满足客户需求,包括这个例子实际上是人与事件。人与物很多时候可以理解成,你对这个商品是不是有兴趣?人与空间,你经常在哪个区域活动?你家在哪?你上班的地点在哪?人与时间,你不同的时间段可能有一些不同的信息。这些对内容提供商有帮助,因为他不同的时间有不同的推送。当然***人与人之间的关系,非常重要。
除此之外,当然还会收集一些其他的特征,这些其他的特征,基本上是包括,这里所有,刚才提到的这些可以命名的信息之外的一些信息,这里不一一赘述了。
这是对数据的一些基础处理,有了这些基础处理,最主要的是得到行为数据,这因为我比较强调行为数据,行为数据到底能够对传统企业也好,商家也好,能够提供什么样的价值?这里会举三个例子。
***个例子非常容易想象,就广告营销,这个是基本上做大数据现在应用的几个主要场景,一个是广告营销,一个是搜索,一个是推荐,一个是金融。广告营销友盟+今年做了一些尝试,用数据做广告营销,***的特点是有高覆盖率。可以拿一个最近做的案例,这是一个游戏的发行商,它有很多很多游戏。他自己是有一个自有的DMP,所以友盟+这个比较实际上不是跟一个什么数据都没有的比较,友盟+是用自有的DMP和他的DMP进行比较。
因为友盟+每天可以监测到1.3亿的设备,所以覆盖量非常非常大。谈到这个覆盖量具体的数字,用户的DMP对于他所要投放的人群,他的这个性别和年龄的覆盖率分别是74.1%和45.6%。对于友盟+来说,两个都是91.2%。大家可能会问为什么两个都是91.2%?因为我说了友盟+的性别年龄是用预测模型做的,当然友盟+的设备都会有年龄性别,当然除了一些有问题的设备没有这样的信息。如果认为这是一个质量比较好的设备,友盟+都会有相关的信息的,所以这个覆盖率是91.2%,基本上是覆盖率非常非常高。
当然重要的一点,友盟+做了一个离线的CTR预估,其实自有的DMP,我基本上是说,没有给具体的数字。用友盟+的数据你LIFI是原来的1.4倍,CPA从1降到0.6。1.4倍什么意思呢?这个离线你可以理解成我把它做成两个类型,我在这个人群里面去预测哪些人是最容易点击的?因为我有预测的值嘛,我可以看到预测的效果是怎样的。我投了一百万人有一万人点击了,这一万人要排在我前面,当然现在还没有系统达到这个效果。
前面的一千人里,有一百个人点击了,这个预测的1.4,大概的意思,在前面这个,刚刚指的一万个人里有140人点击了,这个更容易筛选谁更容易点击你的广告。这个对后面的投放有很好的指导意义。
既然友盟+把这个顺序排得***,意思就是说,你把你的钱更多的用在刀刃上了,因为你预测的点击准了,所以你点击的人在你投放的这个范围内点击你的人,用友盟+的模型实际上圈出来的人更多了。因为你投放的钱是一定的,你每个人的点就降低了,降低了40%。这个数字还是很有意义的,因为这个不是说跟一个随机投放比,而是跟一个已有的DMP去比。
这是***个友盟+做的离线测试,当然这离线的测试往往还不能说明实际的问题,所以大家往往看到一些真实的案例。
这是一个游戏,这是一个APP的创意。友盟+做了一些分析,我这里用了一个叫TGI,用了一个星号。这个平常的定义是什么呢?你这个人群跟整体的人群的比较,刚才***内容官说到,我们的讲师都是男的,其实我看的一下,这一届的讲师也全都是男的。如果说我们这个人群性别的TGI跟整体的TGI比,那就是一个非常明显的区别,我们这边绝大多数都是男的,少部分人是女的,正常是50%50%。
所以这个TGI的意义是说,我要把两个人群的***不同给它放大。如果说大家做过一些画像产品,可能都会有这样的体会,如果我画出来,好像我所有客户的画像都差不多,这什么原因呢?因为现在市面上很少有一个DMP能够给你非常非常完全没有一个偏差的数据统计。
因为你这个数据的性质,你本身这个数据级和在你采集的这个用户的行为,因为不是他所有的行为,这本身可能就会有偏差。你用稍微带点偏差的数据做出画像,你会发现在你的数据里头,相似的永远相似,不管在什么场景里面。所以为什么用TGI呢?实际上就是把你关心的人群跟原来用你这个数据画出来整体人群的差别做一个对比,这样把差别的地方放大。 实际上对比就是用你的人群除以整体人群的比例,这样把差别体现出来了。
这里的TGI,用了所有看广告的人,点了和没点做了个比较,所以这个不是对一个整体的比较。这个更显示了这两个人群的区别,我发现比较明显的几个区别,***个点的人对冒险类的游戏都比较有兴趣,比较喜欢看跟军事有关的新闻。后面两个是说男性25到35岁,有了这个历史数据的分析呢,就可以用这个去指导投放,我下面再投放的时候,我就要用这四个纬度,当然这个我只是举一个简单例子,实际上并不是只用了这四个纬度。去圈你下一次要投放的人群,效果其实还是有,如果你要算相对的提升,还是有很高很高的提升。所以这个实际的案例去印证我们的数据能够为广告主提供很大的价值。
当然了,这个例子,大家可以会觉得这个例子比较人肉,我有一个广告主来了,可能找一两个人去给他做一个比较深入的分析,我说我怎么去把你的历史数据拿出来做一个比较?怎么提出来哪几个纬度***?这个人肉的方式我们不是特别喜欢。刚才阿里云的同志也说了,支付宝这边放贷是没有人工介入的,我们也希望做广告没有人工介入。在广告业,当然这个其实并不是一个新的事情了,就是我如果用一批自己的核心用户,我肯定想找出跟我核心用户相近的人群,我把我的消息推送给他们,这实际上是最有效的。
这个对做数据的人来说,反而是相对来说比较好做的事情,因为有训练数据的,这个非常非常关键,而且很多广告,效果广告,尤其像安装啊,***的这种转化数据也是非常非常明显。所以我们有训练数据,也非常容易定义我们的目标是什么?其实我们就可以通过广告本身核心人群,在这个整体的人群里头去找,哪些人跟他们最相近?
这个找呢,友盟+数据一大好处,数据一个是覆盖非常多,知道它的行为也很多。所以,这个找你纬度越多,越容易找到相近的人,如果你只是从一两个角度去看这个人,其实你有时候很难判断他们俩是不是真正相近?当然我们数据也不是很***,但是至少我们有很多纬度可以作为参考。
所以友盟+就训练了模型去通过你的人群给你放大,还有一个好处,我这么放大,你可以任意选投放人群的大小,因为这个模型做出来,实际上把整体的整个的人群做一个排序,最和你这个相近的人群都排在前头。如果你投一千万人,我可以给你划一千万人,这样你永远可以找到人投,而且我们可以告诉你为什么投这些人?一些传统的DMP的投放方式,包括他们打标签的方式都是基于事实的标签,也就是说,我判断这个人是不是对体育有兴趣?我可能说看看他最近是不是用了体育相关的这些APP,如果他用了,我就给他打上一个体育性质的标签,如果他用的多我还可以给他一个权重。但是如果这些人没有用体育,或者你没有监测到他用体育的APP,你没有监控到,并不能说明他对体育没有兴趣。这个就是说我根据各个纬度去判断这个人群的相似成都,其实你可以理解成友盟+是覆盖***的人,只是你愿意投到百分之多少的阈值那,这个对广告主来说也是比较灵活的。
这个是一个比较,这个并不是特别特别***,这个因为能够找到很多新的人群,所以这个线保持得是比较平稳的。当然我们还在做许多工作,在模型上,在特征上把这个能够做得***,这两个是实际我们在广告营销上投放的两个实际的案例。
下面一个,个人认为比较有意思的,这个项目是今年年初成立以来,我起动的一个项目,本身跟我自己的背景稍微有点相关,因为我原来在美国是做过风险控制。我就在想有这么多数据是不是能在风控上做一些尝试呢?因为在美国实际上有一个公司,它是原来谷歌的CIO出来办的。他办这个公司的目的是什么呢?其实美国整个征信体系是非常非常好的,它有三大信用局,它把美国所有人有关这种借款、贷款、信用卡这种还款记录,实际上都收集起来了。收集起来以后呢,三大信用局,有一个公司是我工作的公司做了一个叫风险控制,这个在美国非常非常重要,如果你的风险控制高,你带看可以比别人贷款利息多的多。
美国这个数据收集了很久,历史很长,覆盖率也很好,确实是把信用高的人和信用低的人分开了,但是信用高的人因为信用高,那各大贷款、银行都争先恐后去抢这些人,必然他们的利润就会越来越低。我在美国的时候用信用卡,我其实不太看利率多少。这个意味着,你如果说都集中在这一块,你的这个利润其实竞争,中国所谓的红海,竞争是比惨烈的。
谷歌这个CIO,他的想法是说,我是不是可以收集一些其他的数据源?因为那些数据都是跟借贷直接相关的数据,然后更好的用一个用户信用的判断。这样的话,我可以去找这些信用好的下面这一层人,这些人他们可能是因为信用分不高,所以他们拿不着贷款,我可以收很高很高的利息,但是如果我在这些人里做一个筛选,我能把有意愿,有能力还款的人再筛出来,我做这个生意就是一个很好的生意。
所以他当时是建了这个公司,他是用了大概两千多维度,其中包括用户行为数据。我这边一看用户行为数据,比他的用户行为数据覆盖率大的多的多,友盟+为什么不做一个尝试?这就是启动这个项目的原因。
刚才提到了一点,这个数据跟风控有关的数据,其实是一个金字塔型的。在金字塔最上方就是你借还款记录,这个非常非常重要,美国的三大信用局收集的数据是这个数据。下面是一些消费数据,包括你银行卡的记录,包括你在淘宝、天猫上的这个消费,因为现在很多外面的P2B公司,把你的淘宝帐号给我,我去查一下你的消费记录。
再下面一层是通讯数据,就是你的电话记录,这个也用得非常多。再往下是社交,其实通讯里头可以引申出一些社交,你经常给谁打电话?当然社交还包括微信微博。***是行为数据,这些数据有什么不一样呢?越往金字塔的上方跟风控和信用相关性越强。你如果掌握了这个数据,它能用这个数据做很好很好的模型。越往下面呢,实际上是覆盖率越来越高,尤其在中国,央行有一个信用数据,里面有3.5亿人,这3.5亿人,实际上它收集的数据也不是特别特别全。
行为数据的好处是什么呢?我刚才提了数据覆盖量非常非常大,尤其在互联网和APP使用上,一般人不会说我要做个假,我自己假装成我是一个别的人,所以这个行为数据是非常非常真实的。那是不是说可以通过这个行为数据做一些有意义的事情在风控和信用方面呢?所以今年做的一些比较有意思的尝试。
***个,是匹配率。因为企业最关心,你要用这个服务,你不能说给一万个服务号,我只给你匹配一百个,你没什么用,你必须有足够高的覆盖率。
***个发现拿到这个数据,对于按期还款的人我们能够匹配到71%,这个匹配不是用全量数据,只是用了一个月的数据,要不然做这种验证代价太大了。对于没有还款的人,他匹配率66%不到。整体来说,如果给我一个数据,我能给你匹配到70%,那么这个就可用。
因为看了一眼这个预期和不预期的,他们匹配率不同,下面一个自然想到他们风险是不是不同?这个数字说明什么呢?是说如果一个设备在这儿没有找到匹配,它的风险要比找到了匹配的风险要高28%。实际上这对于下面这个借款公司,这个本身可以作为一个参考。这是非常早的时候发现一个比较有意思的事情。
第二个,操作系统跟手机品牌。这个其实大家比较容易想象,这边是IOS这边是安卓,因为IOS本身它的系统也比较封闭,不太容易做太多乱七八糟的事情。安卓是很开放的,有很多山寨机,甚至有很多模拟期,都可以模拟安卓,所以安卓本身风险率要比IOS的要高很多。
另外一个比较有意思的事情,是友盟+内部,因为每天这么多设备,我们会这些设备做一个评级,这评级的意思就是说我去判断,你这个设备是一个非常正常,有正常使用的设备,还是说你这个设备是一个用来刷量的设备,羊毛党用的设备?这个是统计级别的,我们其实自己想一些规则,做的一些统计上的处理。我们把这个评级内部评为一到四级,一级是***的最正常的设备,四级是最不正常的设备,这里可以看出他们之间的风险率是非常非常不同的。
下面简单说一下友盟+用到的特征和模型。我们的特征分成几类,一类是APP相关的,你安装的APP,或者你经常使用什么APP。第二类是跟设备有关的,品牌、操作系统,包括你的尺寸、价格和我们内部的质量。
下面这个例子基本上差不多,这是0.68跟0.28,友盟+现在跟所有的P2B公司,或者银行,我们不希望你直接用我们这个输出去判断是不是给人借款?但是我希望你把我们这个输出整合到你们自己的模型里头,用到你们所收集到的数据,消费数据、通信数据、社交数据放在一起,希望能够帮助你们做得更好。这个是我们在风控方面的尝试。
***一点,开始进入店下,从客流分析入手。之所以做客流分析,友盟+前身的公司就是做APP的客流分析的起家的,这个实际上我们的老本行,只不过你的数据源不同而已。为什么做线下?都说线上很好,线下的日子过得很好,一个原因,如果你想一个电商的网站,用户从进入你这个网站他的所有选为你有严格的监控,他干了什么你全都知道,什么东西都躲不过你的眼睛,你就可以用这些数据做很多多的优化。包括双十一淘宝、天猫每个人看见的产品都不一样,这些都是多年收集数据的结果。
对线下来说就比较惨淡了,线下你如果说到我这个店的附近了,我是不是有办法知道你?这个线上的话,除非他过来了,要不你是不知道的。对于线上来说呢,其实这所有的环节基本上到现在为止,没什么输出,付款你可能知道一点点,如果他有你的会员,你说会员卡给我,我可能你买了什么东西,如果他现金付不是会员,你只知道他买了什么东西,对于这个人你完全不知道。
对于线下来说我一点数据没有,我怎么做优化啊?没法做优化。我们就想,是不是可以帮助线下的商家开始收集一些数据?收集数据呢有很多方法,收集数据传统的有红外线,有摄像头。红外线和摄像头的好处呢,它数的属于可能相对来说比较准一点。坏处是它没办法做连接,我刚才提到这个数据非常重要一点是连接,今天这个人来了,明天这个人回来你不知道他是同一个人。我们现在人脸识别技术很好了,像我一看见这个人,我就可以跟你说欢迎你,再次回来。这个离具体到实施还是有一段距离。
现在还有两个方式,一个是通过WIFI收集,这个WIFI不对人,只对设备。只要你手机开了WIFI,它就不断往外发信号,去找最近有没有上网的地方?他发的时候把手机的ID也会带着,WIFI可以去匹配这些信息,这些信息收集到以后,你就知道这个人来了,在我店里待了多长时间?他第二天是不是又来了?
Beacon它就是一个二维码,你不用去扫,你开着蓝牙它就自动知道你在附近了。这三个都是WIFI,这个是Beacon。
今天我主要分享一下跟WIFI有关的尝试。WIFI比较好的是用户不需要做什么,如果他开着WIFI,我们就能收集到信息,我们也可以做连接。做了连接以后,实际上我们有一系列的指标可以计算出来,这里头包括客流数,路过数。客流数在某一个时刻有多少人在你店里?路过数是有多少人从你店前路过,这两者一除你就知道你进店人数。
后面包括两个,一个是跳出率,一个是进入率,这个是有的人一进我店就出去的,对我们店没什么兴趣。还有人一逛逛两个小时,这个人就是的金主。新客。还有这个人是不是来过?如果每周都来我店,每次来都待30分钟,我把这部分人圈起来,这是我将来重点营销的人。
现在我们做的一些案例,***个案例,去年双十一促销,是一个化妆品的零售店,北京有24个店面,它这个促销店面,11月6号到11月11号,他主要想衡量他这个活动到底效果怎么样?我们用的是WIFI探针。
***项,这个线是总客流的情况,这个线是入店客流,然后在促销期间呢,大家可以看到,这个入店客流增长还是不错的。总体看这个效果至少对引流来说还是做得不错的。但是是不是都是这样呢?就更细节的看一下,因为它有24个店在北京,分区,四个区。好像有点问题,有两个区不错,另外两个区好像基本上没效果。这个数据我们就给到店家,你去深入研究一下,为什么这两个有效果,这两个区没效果?这会对后面有一个比较好的指导,有一个定量的指导。
我做的不简单只是客流,因为这个数据可以和我们线上数据连接,连接以后就可以对你的人群有一个更好的了解,一个是你的性别,有多少人,这是性别的分布,你的客流性别分布这个主要以女性为主。在网上消费的能力,年龄的分布,在网上消费的频率还有你经常感兴趣的新闻是什么?你经常使用的APP类型是什么?这些我们都可以提供通过这个产品。
第二个,是一个展会,这个展会实际上是用这个可以看一下热力跟动线图,因为时间比较紧,这个字不过了。说一下这个效果,这是这个会场的平面图,你可以看到人流是怎么在你主要几个点之间流动的,包括人流的大,这个是热力图。哪些点大家比较感兴趣,你都可以看到。
我们希望通过这个线下的数据收集和线上的数据打通,能够把线上商家的数据化应用能力,提供给线上的商家,其实很多线上的商家走到线下,线下的商家都到线上,这个也符合我们的发展趋势。
好,谢谢大家!
【51CTO原创稿件,合作站点转载请注明原文作者和出处为51CTO.com】