第22期百度技术沙龙总结:数据挖掘的价值

原创
系统
本周六下午的百度技术沙龙将主题定为《海量用户的数据挖掘与行为分析》,两个主讲人分别来自百度与人人网,话题分别专注于搜索引擎算法的评估以及社交网络推荐算法的评估。数据挖掘本身其实是个相当古老的学科,在科研领域一直是必备技能之一。

【51CTO报道】一群传统行业的从业者们和一群互联网人聚在一起,讨论的不再是企业信息化的问题,而是数据挖掘的话题。

2012年1月7日下午的百度技术沙龙将主题定为《海量用户的数据挖掘与行为分析》,两个主讲人分别来自百度与人人网,话题分别专注于搜索引擎算法的评估以及社交网络推荐算法的评估。

相对于软件开发和服务运维等“传统”IT技术而言,数据挖掘是一个完全不同的学科。百度技术沙龙的两个分享者的话题,一个偏重于方法论,一个偏重统计学,令当天的不少听众感觉有一些理解上的门槛;但数据挖掘本身其实是个相当古老的学科,在科研领域一直是必备技能之一。科研领域之外,数据挖掘早期主要应用于金融行业的客户需求预测、保险行业的客户风险分析等情景,因为金融行业在当时是数据积累最为密集、对数据需求最高的行业。

随着互联网服务规模的扩大,有心人为了改进服务、增强竞争力以及其他一些原因而早早开始有意识的跟踪搜集用户使用服务过程中的一些数据。在这个过程中,越来越多的泛对象服务转变成为有针对性的个性化服务。最容易理解的场景是电子商务:个性化推荐服务目前已经可以媲美很多商场里的导购小姐。网络营销与广告系统的场景需求与电子商务的情景类似。传统行业方面也有很多潜在的需求,比如医疗方面,不同个体的病史数据对于其下一步治疗应该采取哪些方案有极为重大的参考意义;传统的商场,需要评估柜台货架如何摆放能够达到最高的效率;制造业领域,需要评估怎样的材料、怎样的环境和怎样的流程能够更高效的制造质量更好的产品。

任何领域的数据挖掘都面临两大问题:一,你并不完全知道应该去收集哪些数据,而你能够收集的数据终究是有限的;二,你通过数据挖掘分析得出了一些结论,但是这个结论并不容易证实或证伪。在实验结果可靠性高的领域,这个问题相对容易,比如你想知道一个铅球掉到地上能砸出多大个坑,你多少知道应该去测量铅球的尺寸和质量,它下落的高度和角度等参数,并通过实践来推算;然而在大多数场景,需要考虑的参数是很多的,而设计再精良的实验也只能给你一个不怎么精确的结论。

[[55536]]
百度网页搜索部 彭滔 

作为搜索引擎,百度的目的是要让搜索结果的呈现次序更好。何谓更好?这是设计任何算法之前必须考虑好的问题。“好”必须变成一个可以量化的指标。来自百度网页搜索部的彭滔就跟我们介绍了他们的经验。在百度搜索的发展历程中,“好”的评估方式大致被分为三个阶段。彭滔取了一个query用作例子:“给我一片关于春天的作文,要长的,快点”。这个例子的目的性很强,评判的主要标准在于解决特定问题。

第一个阶段,是由PM来给搜索排序中的第一页的结果打分,0分是最差,4分是最好。如果4分结果靠前,这个算法在这个query上就被定义为一个较好的算法:

第二个阶段是第一个阶段的多人版,即抽取较多的query,从外包公司请来一大批兼职人员(evaluator)来评分,然后取平均值。对于正确率高的evaluator给予奖励,即可以认领更多的任务。

第三个阶段彻底改变了“好”的定义:直接在线上环境进行AB testing,根据首次点击的上升/下降情况,以及用户翻页的次数等指标来评估。为了减少随机性对实验结果的影响,还采取了空转、反转等步骤来加固实验。

究竟百度这样的评估方法是否给我们带来了一个越来越好的搜索引擎?相信每个用户心里,都会对“好的搜索引擎”有不同的定义;而由于每个用户的query不同,结论的偏差肯定是有的。最后,彭滔也提出了对个性化搜索的展望,相信这个领域仍有非常大的挖掘空间。

人人网是一个社交网站。本次进行分享的是人人网Social Graph的算法工程师张叶银,他的目的则是要让每个用户主页那有限的几十个推荐位上出现尽可能多的让用户感兴趣的朋友、话题、游戏等内容。

社会化网络就好比一个社会一般。这个推荐系统就好比在海淀区这么大一块地方上方出现一个爪子,这个爪子从什么地方拎起一个人放在我的面前,它要如何知道我会对这个人感兴趣?他和我有共同的朋友吗?他和我有共同的话题吗?他和我喜欢同一个明星或商品吗?

张叶银的分享中,列出了一些通用的量化指标:年龄,学校,地域,性别;访问了谁的个人主页、相册,给谁分享过信息,给谁留言或评论过……很显然,这些指标的数量很多,而且一眼看上去很难评判哪些是更加重要的指标。所以,推荐算法的设计可以说是一个漫长的试错过程:

而目前可以依赖的实验结果,就是用户最终在这几十个推荐位中接受了多少个推荐。

所有这些数据挖掘的情景,算法的改良,大多不会是一个突变的过程,很可能只是精确度提升了0.1%甚至更低。然而对于百度和人人网的规模,0.1%的改良是值得去做的:数据的规模决定了数据挖掘的价值。随着大数据时代来临,数据挖掘的价值也将水涨船高,这是一个极好的机会。如果你对数据挖掘感兴趣,那么建议你打好算法和统计学的基本功,多多关注数据挖掘的各种需求场景,好赶上这次发展的大潮。

有关百度技术沙龙(官方网站地址):“畅想•交流•争鸣•聚会”是百度技术沙龙的宗旨。 百度技术沙龙是由百度与InfoQ中文站定期组织的线下技术交流活动。目的是让中高端技术人员有一个相对自由的思想交流和交友沟通的平台。

责任编辑:yangsai 来源: 51CTO.com
相关推荐

2020-06-08 11:05:12

技术周刊

2020-12-31 20:32:47

AI

2013-12-30 11:15:23

2012-07-16 14:52:39

51CTO技术沙龙

2018-08-10 15:54:43

大数据

2013-01-24 10:20:28

桌面运维

2013-07-22 13:57:28

百度开发

2012-03-23 12:12:37

百度开发者大会

2020-04-29 16:04:21

网络安全网络安全技术周刊

2019-06-03 22:57:50

百度物联网SQL

2012-01-11 13:10:47

百度沙龙

2014-01-08 13:02:34

百度轻应用沙龙

2013-11-03 23:42:02

SiteApp网站移动化

2012-05-23 09:35:55

技术沙龙

2014-07-25 17:12:39

数据库WOT2014MongoDB

2013-01-31 09:15:08

偷拍插件美杜莎

2013-08-22 17:08:50

2011-09-06 14:59:32

开发技术周刊

2011-06-21 17:13:07

SEO百度快照

2015-09-25 16:41:03

APIStore百度技术革新
点赞
收藏

51CTO技术栈公众号