这将是一个根本性的变化。此前,我们的几乎所有研究、推理和假设,都是依赖于采样数据。虽然从统计学的角度来讲,采样分析的精确性随着采样随机性的增加而大幅提高,与样本数量的增加关系不大。但是保证采样的随机性本身就是一个巨大的挑战,同时采样会让我们忽视众多细节。所以,当我们有能力收集所有数据的时候,当“样本=总体”的时候,世界会展现出一个全新的样子。例如IBM把公司所有的财务数据和销售数据整合在一起的时候,就可以思考一下“中秋节送月饼是否对销售有促进作用”这样非常细节的问题。
但是,大数据虽然神奇,它也只是一个概念,能否释放出巨大的能量还受到诸多因素的限制。
最近我总是和朋友们谈起一个故事。话说林彪从带兵开始,身边就有个本子,每次打完仗,他就把战果记在上面,不厌其烦。不了解的人,还以为他以此为乐。
1948年辽沈战役打响后,无论战情如何紧急,多么疲惫,林彪依然每天坚持听军情汇报,而且对战报要求很细:俘虏要分清军官和士兵;缴获的枪支要统计出机枪、长枪、短枪;击毁的和还能使用的汽车要分出大小和类别,每份战报几乎都是千篇一律的枯燥数据。
1948年10月14日,东北野战军攻克锦州后,又挥师北上,与从沈阳出来增援的廖耀湘兵团20余万人迎头撞上,混战在一起,战局瞬息万变。一天深夜,值班参谋正读着一份遭遇战的战报,林彪听着听着,突然叫“停”。他问周围的人:“刚才念的在胡家窝棚那个战斗的缴获你们听到了吗?”周围的人满脸都是睡意和茫然,因为像这样的战斗每天都有几十起,只是枯燥的数字稍有不同。林彪见无人回答,便接连提出3个问题:“为什么那儿缴获的短枪与长枪的比例比其他的战斗略高?为什么那儿缴获和击毁的小车与大车的比例比其他的战场略高?为什么那儿俘获和击毙的军官与士兵的比例比一般歼敌略高?”
人们还没来得及思索,林彪已指着军用地图说:“我猜想……不,我断定!敌人的野战指挥所就在这儿!”随后,林彪命令全力追击从胡家窝棚逃走的那股敌人。廖耀湘刚刚还在庆幸自己在意外的遭遇战中幸免于难,很快就发现被漫山遍野的解放军团团围住,还不断有人高呼“矮胖子,白净脸,金丝眼镜湖南腔,不要放走廖耀湘”的顺口溜。压力如此之大,只好举手投降,辽沈战役就此尘埃落地。
这其实是个典型的大数据故事,说明了关于大数据的几个关键点:
第一,大数据并不神秘,古已有之;
第二,数据的收集最重要,但是一件长期且困难的事情;
第三,利用好大数据,依然需要敏锐的洞察和创新的思维。
对于中国企业来说,大数据的流行,挑战更大于机会。因为从文化来讲,中国历史上就不是习惯于用数字管理的国家,而美国人连飞机漆成什么颜色更容易被击落都会进行统计。这种意识上的差异,就造成了我们骨子里对于数据的重视程度远远不够,这会在数据的采集、利用和分析上,带来很多问题。
最直接的一个例子,在公开的美国政府网站Data.gov上,大约有超过40万各种原始数据文件,涵盖农业、金融、就业等近50个分类。美国官方称这么做的目的是“方便公众更便捷地获得联邦政府数据,并通过鼓励创新突破政府的围墙而创造性地使用这些数据”
这个差距就足够追赶了。