聊一聊大数据的问题和缺陷

大数据
多亏了大数据和云计算,可以让企业使用超级计算机的力量。而人们面临的问题是用来分析和应用大数据的工具通常有一个致命的缺陷。人们进行的大部分数据分析都是基于错误的模型,这意味着错误是不可避免的。当人们夸大的期望超过其能力时,后果可能是可怕的。

 多亏了大数据和云计算,可以让企业使用超级计算机的力量。而人们面临的问题是用来分析和应用大数据的工具通常有一个致命的缺陷。人们进行的大部分数据分析都是基于错误的模型,这意味着错误是不可避免的。当人们夸大的期望超过其能力时,后果可能是可怕的。

如果大数据不是如此巨大,这不会是一个问题。考虑到人们拥有的数据量,有时甚至可以使用有缺陷的模型来产生有用的结果。这里的问题是人们经常把结果与全知混淆起来。人们对自己的技术非常迷恋,但是当模型出现故障时,它会变得非常难看,尤其是当数据产生的错误是相当大的时候。

[[214618]]

大数据失败的例子

也许最大的和最知名的大数据失败案例是在谷歌公司的2013年流感趋势。谷歌于2008推出这项服务,目的是预测25个国家的流感疫情。逻辑很简单:在特定区域分析谷歌关于流感的搜索查询。下一步是将搜索结果与该地区流感活动的历史记录进行比较。基于这些结果,活动水平被分为低,中,高或极端。

尽管乍一看,这似乎是一个很酷的想法,但实际上并不是这样。在2013年流感高峰期,谷歌预测的流感的趋势悲惨地失败了。事实上,这个数字是惊人的140%。原因是算法有缺陷,没有考虑到几个因素。例如,如果人们搜索“冷”或“发烧”这样的词,这并不一定意味着他们正在寻找流感样症状。他们可能一直在寻找季节性的疾病。对于谷歌流感趋势不幸的是,它无法从这场灾难中恢复过来,最终导致了2013年的崩溃。

大数据失败的原因

谷歌流感趋势的失败并不是唯一的灾难。人们不可能列出这些年来所有大数据的错误,然而,分析失败是很重要的,因为可以吸取教训,不要在功能上重复错误。大数据失败的一些原因如下:

(1)缺乏数据管理和数据管理

组织往往不完全了解他们已有的数据,但他们仍然决定在此基础上开展新的项目。缺乏关于数据处理的文档、存储、策略和其他程序。采用大数据咨询公司的服务是一个好主意,这样企业就可以为自己提供一个清晰的路线图和指导,说明如何处理已经拥有的数据,然后才能克服大数据的挑战。

(2)未定目标和战略

这里有很多IT术语和营销术语,而且在白噪声中难以理解。此外,市场上还有很多大数据产品,选择合适的产品真的很困难。企业在决定任何事情之前,找出实现目标所需的服务和技术非常重要。“做大数据的小数据”,这意味着企业应该在少量数据上评估其大数据架构,以确保选择正确的产品。

(3)完全不了解

数据科学和大数据是领域知识,数学,统计专业知识和编程技能的复杂组合。然而,同时它也必须具有商业意义。通常,IT部门会做出管理层不能理解的变更,反之亦然。为了确保企业了解大数据行为对IT和业务领导者都有意义,应该在大数据项目中构建IT与业务之间的桥梁。业务人员应该深入参与大数据项目的任何阶段。

(4)项目太大太快

当企业第一次开始实施大数据项目时,有很多未定义的因素,比如预算、技术、行动方式等等。当企业很早就开展一个大项目时,那么注定要失败。相反,应该选择一个小项目进行,并衡量成功(或缺乏)增量。这样如果出现问题,将能够立即注意到它,并在项目结束之前进行必要的调整。衡量企业的进步的好方法是创建概念的原型或证明来验证其所完成的工作。如果项目早期存在缺陷,推进项目的下一阶段就没有意义了。

(5)缺乏IT人才

企业找到和雇用所需要的人才来成功完成一个项目是一项艰巨的任务,但处理企业数据的工作人员是整个项目的重要组成部分。而且,他们必须精通新技术,这对于快节奏的IT环境来说是一个挑战。

从上面的列表中,人们注意到的一个共同的主题是,无论想要关注数据多少,人们总是受到阻碍。即使人们想要数据来决定决策过程,人们最终还是要管理大数据流程。这包括做出基本决定,例如收集和保存哪些数据,以及从大数据中寻找哪些答案。

通过迭代创新

当决定进行大数据项目时,许多组织感到束手无策,这就是为什么采用迭代方法处理大数据至关重要。组织应该尝试设法让员工自由地尝试数据。事实上,最重要的大数据技术是开源的,这个“开始小,失败快”的方法得到了加强。而且,很多平台可以立即以经济实惠的方式访问云服务,从而进一步降低了试用和错误的方法。

大数据就是要问正确的问题,所以依靠现有的员工是至关重要的。但是,即使拥有较高的领域知识,组织也不会纠正必要的数据,从一开始就不会提出正确的问题。这种失败应该被接受和期待。

由于企业的大数据项目的早期阶段可以制定或颠覆整个事情,这就是听从大数据咨询公司的建议可以获得真正回报的地方。他们可以为企业建议如何创建概念的原型和验证,进行基准测试,帮助创建微服务架构,并帮助企业迁移到新技术。采用灵活的开放式数据基础设施是非常重要的,这种基础设施可以让员工不断修改和完善他们的方法,直到他们获得成果。这样,组织就可以消除恐惧,可以迭代有效地利用大数据。

责任编辑:武晓燕 来源: 机房360
相关推荐

2020-07-16 14:40:23

大数据计算框架

2023-06-02 07:45:39

2023-07-06 13:56:14

微软Skype

2019-12-12 14:52:10

数据库脚本

2020-09-08 06:54:29

Java Gradle语言

2022-05-18 16:35:43

Redis内存运维

2021-08-04 10:15:14

Go路径语言

2022-06-27 08:24:34

JDKJavaJRE

2024-03-28 09:02:25

PythonGetattr工具

2023-09-22 17:36:37

2021-01-28 22:31:33

分组密码算法

2020-05-22 08:16:07

PONGPONXG-PON

2022-02-21 15:01:45

MySQL共享锁独占锁

2022-08-30 10:15:27

Kubernetes数据持久化管理

2018-04-19 10:22:06

数据中心连接性托管

2018-03-22 10:36:15

未来数据中心停机

2021-08-01 09:55:57

Netty时间轮中间件

2023-09-27 16:39:38

2024-10-28 21:02:36

消息框应用程序

2018-06-07 13:17:12

契约测试单元测试API测试
点赞
收藏

51CTO技术栈公众号