数据的规模效应扩大将我们带入了大数据时代。在数据时代,广告和大数据的关系是怎样的?海量数据的爆发给安全课题带来哪些挑战?如何处理大数据技术和隐私之间的关系?
带着这些问题,51cto记者采访了360商业产品***架构师,从行业角度和宏观领域深入解析这些问题。
刘鹏现任360商业产品***架构师,负责 360 商业化变现的产品和技术。曾任微软亚洲研究院研究员、雅虎北京研究院高级科学家 ( 负责全球搜索广告、受众定向广告、个性化内容等项目 ) 、 MediaV ***科学家 ( 负责算法和数据平台 ) 、以及搜狐集团研究院负责人,WOT 技术峰会特约讲师。
计算广告和大数据
如果说广告是已经十分成熟的规模化业务,大数据则正处在攻城略地的上扬阶段。谈及此二者之间的关系,刘鹏认为,相关行业对广告的重视程度和其实际的行业地位是不匹配的,对于广告的重视程度不足。实际上,大规模利用用户行为数据进行挖掘创造价值的,最早的行业就是广告,计算广告。他提到,我们今天看到的很多平台比如说Hadoop,它最早的应用领域也是搜索和广告。
从实际行业规模来说,目前大数据落地的行业有若干个,像个性化推荐、广告、个人征信,还有一些政府应用等。但是唯一形成规模化、赢得利润的行业,就是广告业。目前广告行业对数据的利用、变现、交易等方面已经有了非常多的实践,并且也形成了自己的认识。
刘鹏说:“我以前也强调过:不了解计算广告,就难以深刻理解大数据,至少会多走很多弯路。”同时,他也提到,大数据行业的发展对广告行业也起到相互促进的作用。
国内数据交易市场尚不成熟
“现在的广告的服务模式交易模式已经完全变成技术和数字驱动的产品模式,越来越程序化,通过算法来打交道来交易,技术已经变成了主导了。”刘鹏说道。不过在他看来,个性化推荐是一个多方博弈的市场,意味着不是一个算法能够决定一切,所有的问题都需要在博弈中寻求***解。
在他看来目前***的问题是在中国市场数据加工和交易不够成熟,没有一个成熟的交易市场。他说:“比如我有一个算法,我可以通过用户的行为特征来提高广告点击率或者广告的效果。但是数据的来源从哪来呢?为此必须要有一个合法合理的数据交易市场,但是这个市场在中国不是很完善,算法可能有,但是数据来源的缺失可能导致很难把算法的作用发挥出来。”
大数据应该指导机器而不是人的决策
在谈及大数据对决策的指导意义时,我们常常默认数据分析的指导意义,而忽视了其指导的对象。对此,刘鹏提出了他的看法。他强调,真正有价值的、或者说值得讨论的是规模化分析的个体或者群体行为特征,应把它用来指导机器的决策而不是人的决策。
从数据分析、数据加工再到数据分析是一个闭环,这个闭环有算法来指导,并不断地优化。如果将数据分析的报表交给一个人来做决策,相比机器,人的效率低,并且不确定性很大。
数据脱敏无法解决隐私问题
在信息时代,海量信息在不断地生产扩张。据统计,在过去的一年中,全球数据中心的IP流量已经达到了8.6 ZB,相当于每月715EB,而这一数据在2013年还只有3.1ZB,可以说是翻了一倍还不止。如此激增的庞大数据量,相对应地也给数据安全带来了一定挑战。
在刘鹏看来,数据安全和网络安全是两个课题。数据的安全有两个层次,一是对个体而言,一是对企业而言。目前这两个问题刚刚受到关注,他认为,一定要有大规模的问题爆发出来才能引起大家的重视。目前来讲,用户对数据安全、隐私的重视程度还不够。
比如数据脱敏,数据脱敏能不能解决用户隐私问题呢?刘鹏认为实际上二者差着十万八千里。他拿熟人之间的隐私问题举例:熟人很容易得到你的行为属性,比如你最近看了什么电影,一般人在网络上看到某某id看了什么电影,他可能不知道是谁,但是你的朋友很容易把这条记录和你联系起来,因为他对你是很了解的。熟人一旦有意识地刺探隐私,他会有非常强的动力,并且不太计较成本。这样前提下,熟人隐私问题会变得很复杂。
“互联网的特点就是这样,没有任何两个人的行为数据看起来是相似的。”刘鹏说,“数据或者说行为标签如果控制不好的话,别人是很容易获得的。但是这件事靠脱敏,是解决不了问题的。”
对于数据量激增带来的安全问题,刘鹏认为这是发展中必不可免的问题。他强调互联网已经成为既成事实,也不可能倒退回去。随着安全问题得到进一步的重视,将来会有更多理论和实践的研究,慢慢地去解决这些问题。
WOT大会上将回顾数据变现的历程
讨论到如今云计算和大数据为何这么火?刘鹏说因为他们或多或少都和房地产有些关联。用他的话说,就是“落地”——落实到房地产行业。相比之下,广告对互联网来说虽然比云计算和大数据重要得多,但是不受重视,因为广告业务很难和拿地发生关系。
在采访***,笔者问及刘鹏作为WOT峰会的特约讲师,会在11月在深圳举行的WOT大数据峰会上分享哪些内容。
他告诉笔者,希望和大家一起回顾数据变现的历程:“用户行为数据最早为什么被记录下来?又如何产生价值?产生价值的过程中它影响了哪些商业产品以及当它成为规模化资产以后面临的哪些交易交换问题?现状是什么?挑战又是什么?我会从数据变现的整个领域同大家一起讨论。”