讲述者:涂子沛,整理:复旦大学DMG实验室
“不用多久……当上总经理、出任CEO、迎娶白富美、走上人生巅峰,想想还有点小激动哪!”
曾几何时,这只是《万万没想到》中一句魔幻现实主义流行语。
可是,在未来的大数据时代,获取财富,寻找爱情,改善社会治理都将被大数据重新赋能。
目标“黄金屋”、“颜如玉”、“乌托邦”又或者是“走上人生巅峰”?
你可以心里没谱,但必须做到心中有数。
“数”中自有黄金屋
第一个故事,是关于钱的故事。
1860年代,中国的圆明园刚刚被烧,美国南北战争爆发。欧洲贾格尔,是一名机械工程师。1860年代全球纺织革命,棉花被称为白金,由美国运到欧洲,被加工成纺织品。他把自己毕生的积蓄都投入棉花产业,开工厂、买机器,后来美国南北战争爆发,棉花禁运,贾格尔的工厂因为没有原材料停办最终破产背负债务。
后来他去赌场碰运气,创造了赌博界的传奇。
赌场里有很多轮盘,他相信一个轮盘转久了就会失衡,转久了有些数字被转到的几率就会变高。他雇了6个人分别记录赌场六个轮盘每次停留的数字,当天晚上对数据进行分析。终于,他发现某个轮盘和他预料一致,有三个数字出现的概率是明显高于1/37。于是贾格尔出手,一个上午赌场的钱就被赢完了,第二天赌场的钱很快又被赢完了。赌场觉得蹊跷,发现轮盘有问题,就连夜把六个大轮盘移位。
而贾格尔很聪明,提前在有问题的轮盘上做了记号,第三个上午赌场的现金又被赢完了。
他成为历史上不出千赢赌场钱的人,用科学的方法使赌场破产。
如果六个人把收集的数据给其他的工程师,其他工程师也可以分析数据,但只有他演绎了这样的传奇,因为他相信数据;同时,也有人相信数据,但只是在一旁看是没有办法看出来的,必须把数据记录下来。
数据第一件事是记录,文字也是数据,图片、视频也是数据。数据不是一切,但一切都在变成数据。
新时代基本矛盾是,人类产生的数据已经超出了人脑甚至机器可以处理的界限,很多数据搁置在政府、企业,长期没有得到分析。善数者为什么能成?记录的作用,数据分析的作用以及对数据的信仰是第一个我想要告诉大家的故事。为什么会收集数据,是对数据有信仰,相信数据能帮他解决问题,洞察事务的真相。
“数”中自有颜如玉
第二个故事,是关于爱的故事。
杭州宝石山有很多老头老太太聚集在相亲角,北京也有,广州天河公园也有,越是处在一线的城市,剩男剩女就越多,找个对象很难。为什么?信息成本太高了。每个人都有朋友圈,未来的对象就在朋友圈圈层能触达的地方,每个人的圈子是非常有限的。
找对象首先是个大数据的问题。当信息不对,就会付出信息成本,时间成本、金钱成本甚至生命成本。
2012年,一个美国加州大学的博士,麦金利,35岁。他在哈佛学生创立了一款用来找对象的社交软件平台。新用户在这个平台要回答三百到五百个问题,如你喜欢政治问题吗?你现在想结婚吗?在回答完之后开始匹配,通过这些问题,人和人之间开始匹配。如果认为某些问题重要,可以调整问题的权重。他发现了一个问题,跟他匹配的人特别少,回应他的人更少。
他意识到,这是因为他不知道他喜欢的女孩子回答了哪些问题。他要用数据分析,哪些女孩回答了哪些问题,如何回答,才能增加匹配的可能性。
他做了个爬虫,爬了两万个女性的回答,用算法把他们分为七类,挑出两类他喜欢的,她们怎么回答相关问题。他针对两类女性分别注册了两个账户,不同的回答,不同的照片,不同的自我介绍。结果这次,平台跟他匹配了上万名女性。他每天都要见两到三个女性,用数据化方法管理约会,每次约会后进行记录哪些可以约第二次,第三次。真爱出现在第88次,中国女孩王婷。这个博士毕业后和女孩结婚。
有人说,我什么都不会,还能成功吗?我有个读艺术的朋友叫麦晓佳,他告诉我了一件事。
他说,沛公,告诉你一件事。上周我女朋友告诉我,她妈妈要来广州见我。我收集了她们家能搜集到的全部的信息进行大数据分析,得出她妈妈一定很爱钱,觉得绝望沮丧。但他突然想到,他妈妈当了梨花社的社长,他的大数据漏了这一点。于是通过女朋友了解到她妈妈是业余的票友。他通过再次大数据分析发现喜欢唱戏的人都喜欢上台、听掌声……总结来说,喜欢听奉承。于是他当天装作不经意提到了她妈妈的偶像。妈妈当时态度就变了,饭没吃完已经获得妈妈的喜爱,把他当成一家人。大数据改变了他的生活。
每个人获得信息和数据的能力是不一样的,所有的信息都在互联网上,有些人找得到,有些人找不到。这是我们这个社会基本的生存技巧。智商是对信息进行处理,而数商是在处理之前必须要找到信息,找不到信息就无法处理,巧妇难为无米之炊。麦金利本科是学中文的,也学会了写脚本。这是这个时代大家都应该具备的基本技能,写脚本、数据分析,必须具备统计学、机器学习、人工智能的基本常识。
“数”中自有乌托邦
第三个故事,是关于大数据如何改变社会的。
故事主角克里斯汀是女记者,在佛罗里达州一小报当记者。一次偶然间看到一则新闻警察开快车将人撞死,她发现印象中不止一次看到这种新闻,于是她去查数据,发现近十年有几十则警察将人撞死撞伤的新闻,但只有一人被判刑。于是她推测警察习惯开快车。
为了证明这个猜测,需要数据作为证据。她最开始抱着测速器在高速公路上等,这很难获得数据。后来她想了个办法,她收集了佛罗里达州所有收费站几千辆警车通过的数据。然后她选取两个收费站,用距离除以时间之差,得出警车的平均速度,发现本州五分之一的警车都存在超速行驶。
数据还表明,很多超速都发生在下班时间,是急着回家而非处理公务。她把这一发现刊登在报纸上,受到社会广泛关注。2014年,她做了同样的事情,把全州警车过消费站的数据再次收集分析,发现开快车的现象下降了80%,一名警察被开除,数百名警察被处分、没收警车。说明她做的这件事是有意义的。
《善数者成:大数据改变中国》,作者:涂子沛,郑磊
在今天这个时代,要想获得更好的成长,你不仅需要智商、情商,你还需要提高你的数商。智商是对信息进行处理,而数商是在处理之前找到信息。贾格尔,用科学的方法击败赌场,三天共赚1200万英镑。他对数据有极强的信仰,相信数据,收集数据,所以他能成功。麦金利的故事说明,数据就在互联网上,他能发现别人没有注意到的数据,这给我们的提示是,我们要掌握新的工具。只有新的工具才能获得数据,提高竞争优势。克里斯汀的故事说明数据的外部性。此数据可能发生彼作用。
世界是一个整体,这个整体就是大数据。个人的数据是散的,如何巧妙利用数据,利用数据需要创新,需要发掘数据的外部性。通过这三个故事告诉大家,善数者成。善数者,可以获得财富,可以找到爱情,可以改变世界。
涂子沛,江西吉安人,信息管理专家,著有《大数据》《数据之巅》《数文明》。2014年从硅谷回国,出任阿里巴巴集团副总裁,后创办数文明科技并担任CEO,同时担任人民网独立董事等职务。