大数据的结果是福是祸?

大数据
在已经到来的大数据时代,我们可能得到非常多的关于人和社会的各种数据和分析结果,面对这些结果,我们如何利用是个非常大的问题。如果我们依照目前一味迎合的做法,大数据的效果可能未必产生正能量。

一、统计现象可能是病态的;

我们经常得到一些用户的消费或者娱乐行为,但是这些行为可能是病态的。这里我就举两个病态的习惯现象作为例子说明。有些用户具有一种病态的消费习惯,习惯于同时消费一定数量的产品,或者某种特定的产品组合。比如,有些肥胖症病人,喜欢吃高热量食品,当然就喜欢看到高热量食品摆放在一起,但是这样就无形中鼓励了对这些用户的不良消费习惯。另一个例子是网络文学。现在的网络文学可算是世界奇观,大量的穿越,意淫小说充斥网络。我喜欢看电子书,可是从网上很难看到像样的新书可以阅读,大多数还是从正规出版社进行购买纸质书阅读。这种一味迎合特定读者群的网络文学现象,相当程度上进一步恶化了当前的教育生态。那些网络文学只会伤害青少年的阅读品味,甚至走上犯罪的道路。当我们看到了一种统计现象,我们仅仅是看到了当前的一种规律,但是这种规律是否是病态的,还是要进一步分析,我们不能因为可以利用这种规律挣钱,就可以推波助澜。

二、统计现象可能是暂时的;

中国是在快速发展的过程中,由于历史的原因和社会发展的阶段性原因,很容易出现一窝蜂的现象,统计规律有时候表现的非常明显。这给我们一个假象,认为这可能是社会发展的未来趋势。但是我们忽视了中国社会的特殊性,这种特殊性在于很多消费习惯是一种补偿性消费习惯,而对于补偿性消费心理来说,可能是过度夸张的。比如,饮酒的习惯,在中国过去,饮酒仅仅是生活中很奢侈的一部分,因此饮酒的习惯对于身体的影响并不很大,但是现在物质丰富了,人们还按照过去的习惯进行饮酒,但是数量大大增加了,于是身体的健康受到的非常大的影响。最近我的一些朋友们陆续开始戒酒,因为他们已经发现,原来认为是友好的表现,现在可能被认为是不礼貌的,比如劝酒。还有就是房地产和汽车消费。除了投资和投机心理之外,中国人对于房子有着独特的热忱,其原因在于中国人还从来没有真正摆脱居住的窘迫,于是大家都非常渴望有自己的住房。汽车也一样,这是补偿性消费的过度行为表现。假如我们去迎合这种暂时的现象,我们会助推一些病态行为,导致社会成本急剧上升,尤其是整体资本成本更为夸张。

三、统计现象可能是局部的;

有时候去吃饭,朋友会通过网上预订,但是去吃了之后往往不如意。其主要原因在于,统计数据的来源并不是全部消费人群。喜欢上网的人群是受限制的,上网又喜欢点评的人更是其中一些乐于此事的人,他们并不能代表所有的消费群体。比如,喜欢点评吃饭的人,往往是学生和年轻的职工,他们收入少,好奇心重,因此对于这种既便宜又能品尝到一定品味的信息来源比较喜欢,这种统计结果对于其他人群可能就完全没有参考价值。还比如,网上有些投票活动,其结果的不可靠跟吃饭的效果一样。我们不能说网上的统计结果没有意义,但是也不能夸大这种只有部分代表性的结果,否则我们可能会被误导。想到前段时间那些恶意的大V们被封杀,也是类似的现象。之所以大V们有一定的市场,还是因为我们缺少对于网络舆论的全面认识。听到一些号称鼎鼎大名的一些网络名人,我也觉得自己有点OUT了,因为作为经常使用网络,并且自认为不那么落伍的人,居然从来就没有注意到这些人。

四、统计现象可能是曲解的;

很多统计现象需要进一步解释,而不能看直接的结果,这些统计结果很多都存在误读现象。有个例子能够很好地证明。英国二战时期跟德国进行空战,每次战斗机回来都发现,机翼上有很多枪眼,大多数工程师认为机翼是很容易受到攻击的地方,需要进行防护,可是增加了防护之后,发现飞机的损失率并没有降低,反而提高了,因为增加了防护,降低了飞机的灵活性和航程。原来是曲解了那个统计规律,因为在战损的飞机里面,有许多飞机没有回来,其被击落的真正原因并没有被统计,因此主要问题没有发现。相反,机翼受损还能飞回来,只能说明机翼被攻击部分本身的影响并不大。“统计学家 Wald 建议统计飞机上弹孔(枪眼)的位置,有了足够的样本后,然后在没有枪眼的部位加强防护,因为这些部位被击中的飞机都没有返航,最后效果很好”(参考第三楼发言补充)。这个统计结果是不可信的,至少不是最重要的因素。

[[112373]]

 

五、统计现象可能是滥用的。

根据数学中的大数定律,样本数量和范围需要超过一定程度才能得到有价值的统计规律,样本的数量和范围取决于模型本身的复杂度。可是在现实中,即便是在很严格的科学研究领域,统计被滥用的现象处处存在。大多数情况下可能是如下景象,一个科研人员或者工作人员,得到了一批样本,根据自己的模型或者理论假设进行简单的统计分析,不管是定量的还是定性的,得到一个结果,于是结论就出炉了,甚至发表在了影响因子很高的杂志上。可是就我多年来参加过的答辩会或者成果介绍的过程来看,相当数量的结果是不可靠的,甚至没有参考价值,因为那些样本数量少的可怜。比如,对于一个复杂现象,就用几十个样本做一个复杂的结论,这就充满了风险,没有检验过程,没有验证过程,这些结果可能会大大误导我们对于自然的认识。另外,在统计结果分析的过程中,人为的选择样本,人为的改造样本,这些例子已经屡见不鲜。

根据上述观察,即便我们进入了大数据时代,意识到数据对于决策的重要性,这是好事,但是如果不能意识到数据本身带来的种种问题,那就无从谈起如何使用。即便是统计结果有一定的参考价值,我们也不能一味的迎合这些所谓的习惯和趋势,因为这些习惯和趋势可能将我们引入一个不可持续的发展过程。从国家层面鼓励科学使用大数据结果的研究是非常必要的。个人或者商业团体往往会倾向于自我或者本组织的利益,不大会真正从社会总成本和总的发展健康度角度看问题。这些负面影响的研究是一种公益事业,只能是政府牵头来主导,并且有意识的引导这种现象。对于一些没有经过科学验证的统计结果进行甄别和检验。但当我们看到一种规律或者现象,我们能够科学的判断这种规律是否为病态的,还是暂时的,还是局部的,还是被曲解的,还是被滥用的结果,是非常必要的。在当前迎合为主的情况下,不会有好的结果,在大多数情况下,统计结果可能给我们带来的不是商业机会,而是危险的前兆。误导性的统计结果甚至会引起不必要的社会心理暗示,从而产生严重的社会大众效果。也许大数据统计分析的第三方检验会是未来的一个很重要的商业机会。

责任编辑:彭凡 来源: 36大数据
相关推荐

2012-02-29 08:51:01

大数据CIO

2011-03-14 10:40:20

2017-08-21 16:15:21

大数据数据安全

2024-09-30 11:32:06

2012-07-09 11:07:31

苹果移动支付

2012-12-10 13:26:01

2020-12-30 09:34:04

AI人工智能SEO

2021-06-01 11:11:01

人工智能

2021-06-01 16:36:22

面部识别人工智能AR

2017-09-11 13:46:01

2024-04-11 10:43:52

2020-08-18 22:14:44

物联网5GIOT

2017-10-17 15:36:09

87号令云计算服务器

2021-01-04 10:28:13

无人机英国医疗

2023-01-16 14:35:25

ChatGPT

2019-03-22 13:53:07

大数据架构数据源数据质量

2015-04-23 16:06:05

大数据

2012-11-19 09:59:03

云计算网络存储管理

2023-12-24 22:33:32

宕机Twitter马斯克

2024-02-20 13:16:00

大数据数据仓库数据湖
点赞
收藏

51CTO技术栈公众号