大数据，不乐观-乐观数据

这将是一个根本性的变化。此前，我们的几乎所有研究、推理和假设，都是依赖于采样数据。虽然从统计学的角度来讲，采样分析的精确性随着采样随机性的增加而大幅提高，与样本数量的增加关系不大。但是保证采样的随机性本身就是一个巨大的挑战，同时采样会让我们忽视众多细节。所以，当我们有能力收集所有数据的时候，当“样本=总体”的时候，世界会展现出一个全新的样子。例如IBM把公司所有的财务数据和销售数据整合在一起的时候，就可以思考一下“中秋节送月饼是否对销售有促进作用”这样非常细节的问题。

但是，大数据虽然神奇，它也只是一个概念，能否释放出巨大的能量还受到诸多因素的限制。

最近我总是和朋友们谈起一个故事。话说林彪从带兵开始，身边就有个本子，每次打完仗，他就把战果记在上面，不厌其烦。不了解的人，还以为他以此为乐。

1948年辽沈战役打响后，无论战情如何紧急，多么疲惫，林彪依然每天坚持听军情汇报，而且对战报要求很细：俘虏要分清军官和士兵;缴获的枪支要统计出机枪、长枪、短枪;击毁的和还能使用的汽车要分出大小和类别，每份战报几乎都是千篇一律的枯燥数据。

1948年10月14日，东北野战军攻克锦州后，又挥师北上，与从沈阳出来增援的廖耀湘兵团20余万人迎头撞上，混战在一起，战局瞬息万变。一天深夜，值班参谋正读着一份遭遇战的战报，林彪听着听着，突然叫“停”。他问周围的人：“刚才念的在胡家窝棚那个战斗的缴获你们听到了吗?”周围的人满脸都是睡意和茫然，因为像这样的战斗每天都有几十起，只是枯燥的数字稍有不同。林彪见无人回答，便接连提出3个问题：“为什么那儿缴获的短枪与长枪的比例比其他的战斗略高?为什么那儿缴获和击毁的小车与大车的比例比其他的战场略高?为什么那儿俘获和击毙的军官与士兵的比例比一般歼敌略高?”

人们还没来得及思索，林彪已指着军用地图说：“我猜想……不，我断定!敌人的野战指挥所就在这儿!”随后，林彪命令全力追击从胡家窝棚逃走的那股敌人。廖耀湘刚刚还在庆幸自己在意外的遭遇战中幸免于难，很快就发现被漫山遍野的解放军团团围住，还不断有人高呼“矮胖子，白净脸，金丝眼镜湖南腔，不要放走廖耀湘”的顺口溜。压力如此之大，只好举手投降，辽沈战役就此尘埃落地。

这其实是个典型的大数据故事，说明了关于大数据的几个关键点：

第一，大数据并不神秘，古已有之;

第二，数据的收集最重要，但是一件长期且困难的事情;

第三，利用好大数据，依然需要敏锐的洞察和创新的思维。

对于中国企业来说，大数据的流行，挑战更大于机会。因为从文化来讲，中国历史上就不是习惯于用数字管理的国家，而美国人连飞机漆成什么颜色更容易被击落都会进行统计。这种意识上的差异，就造成了我们骨子里对于数据的重视程度远远不够，这会在数据的采集、利用和分析上，带来很多问题。

最直接的一个例子，在公开的美国政府网站Data.gov上，大约有超过40万各种原始数据文件，涵盖农业、金融、就业等近50个分类。美国官方称这么做的目的是“方便公众更便捷地获得联邦政府数据，并通过鼓励创新突破政府的围墙而创造性地使用这些数据”

这个差距就足够追赶了。