在左派技术管理者的眼里,大数据就像“雷神之锤”,所有与数据有关的难题看上去都像是钉子,但实际上大数据在很多方面都无法取代人类的智慧和判断、大数据可以处理大量非结构化数据,弥补管理者过于依赖直觉的不足;但是人们也应当意识到,大数据也有很多不擅长的地方:例如无法对“情感”和“社会关系”等进行定性分析,原始数据和分析结果会受到人类主观意识影响等。
在这个大数据爆炸的时代, 数据分析似乎无所不能, 从商业, 到体育, 到医疗甚至到军事领域, 大数据分析都在大显身手。 不过, 就像任何工具一样, 大数据分析也有其局限性。 最近纽约时报的专栏作者David Brooks就对大数据的局限性发表了一些观点。编译如下。
不久以前, 我和一位大银行的CEO晚餐时, 他提到他正在做一个艰难的决定:鉴于经济形势以及可能的欧元危机, 要不要把公司从意大利撤出来。
这位CEO有银行的经济学家为他做的一系列经济预测, 情景分析, 以及各种情况对公司的影响。 但是, 最后, 他还是依靠价值观做了最后的决定。
他的银行已经在意大利开展了近10年的业务。 他不想让意大利人觉得他们银行是一个“可以共富贵, 不能共患难”的朋友。 他不想让公司的员工认为公司的经营理念就是在情况不好的时候跑路。 他决定银行还是留在意大利来面对各种潜在的风险, 以及甚至可能发生的短期成本。
他并非对数据分析的结果视而不见。 不过, 最终他采用了不同的思考方式。 他这么做是有道理的。 商业依赖的是信任, 而信任是一种情感方面的互惠。 在困难时刻, 人们的表现能够让他们赢得赞赏和尊重。 这一价值非同一般, 不过很难用数据分析来发现。
我将这个故事的目的是想指出数据分析有其强项, 但是也有其局限性。 如今, 人们的生活已经离不开各式各样的计算设备, 这些计算设备都能够采集数据。 在这个时代, 大数据可以被用来分析很多复杂的现象。 数据可以弥补我们单靠直觉的不足, 也可以纠正我们由于自身偏好所导致的判断偏差。
不过, 还是有很多方面, 大数据并不擅长的。 这里我来列举一些方面:
大数据不擅长社会关系分析
人们的大脑在数学方面比较差(告诉我437的平方根是多少), 而在社会认知方面则超级强。 人们很容易就能够感知到对方的情绪, 分辨出不友好的行为, 以及根据感情进行价值评估。
而计算机主导的数据分析, 则擅长于分析社会关系的数量而非质量。 社交网络的数据科学家可以分辨出6个你的同事, 你一天中有76%的时间会见他们。 而却很难发现你一个一年只见两次面的童年伙伴。 更别说发现像但丁对贝特丽丝的爱情那样, 只见过两次面就深爱上对方的情况了。
因此, 在需要基于社会关系作出决定时, 只依靠计算机而不是依靠你的大脑是愚蠢的。
大数据不擅长上下文情景分析
人们的决定并不是仅仅基于离散的事件的, 它往往是基于前后关联的情景的。 我们的大脑很擅长这种事情。 在讲故事的时候, 人们很擅长把不同的原因和情景结合在一起。 而数据分析则在这方面表现糟糕。 它很难分析清楚就算最简单的小说里的线索和各种前后关系。
大数据产生过多的发现
有一句谚语叫做“在麦堆里面找针尖”。 麦穗和针尖看起来差不多。 而大数据则让麦穗变得更多了。 当我们的数据越来越多, 我们很容易能够发现很多的统计上重要的关联。 绝大多数的这些关联都是虚假的, 会引导我们作出错误的结论。(参考本站文章:避免大数据的“思维陷阱”)。 而随着数据的增长, 这种虚假关联的情况将呈指数级增长。
大数据不擅长处理真正的巨型问题
如果你想看一下哪些邮件对推广活动最有效, 你可以进行随机抽取对比组样本。进行比较。 可是, 如果我们像模拟一个衰退期的经济体。 我们没办法去找这样的一个对比组。 我们经常会看到人们争论什么是最好的经济刺激政策。 而我从来没有看到争论的双方能够用数据分析说服另外一方的。
数据分析的结论往往基于大众偏好
数据分析可以发现很多人们喜爱的产品。 而很多重要的(挣钱的)产品一开始往往不为人们所喜爱因为人们最初不熟悉。 大数据分析往往可能漏掉这样的产品。
原始数据往往会被扭曲
我最近读了一本书叫做《原始数据的矛盾》。 其中一个观点就是“原始”数据其实也并不原始, 它总是按照某设计者的要求来进行组织的。 这样一来, 设计者的观点或者价值观总是或多或少会代入这些“原始”数据中去。 因此在数据的采集到解释的过程中, 都会带有原始数据设计者的意志。
这里, 我并不是想说大数据分析不是一个好的工具。而是想说, 就像任何好的工具一样, 它有它所擅长的地方, 也会其局限的地方。 而世界正因为不能单从一个方面解释而显得有趣。
原文链接:http://www.ctocio.com/ccnews/11533.html