数据分析的12个神话被揭穿!

大数据 数据分析 CIOAge
分析是当今信息技术最热门的方面之一,可以带来巨大的商业收益,但错误的观念可能会阻碍分析能力顺利和及时的流转,从而使商业用户和最终客户受益。当企业创建或扩大他们的分析战略时,以下是他们可能要记住的十几个神话。

从数据问题到人员需求再到技术组合,数据分析的误解比比皆是。下面我们来看看如何利用数据科学来实现真正的业务成果。

在IT领域,炒作越大,误解越多,数据分析也不例外。分析是当今信息技术最热门的方面之一,可以带来巨大的商业收益,但错误的观念可能会阻碍分析能力顺利和及时的流转,从而使商业用户和最终客户受益。当企业创建或扩大他们的分析战略时,以下是他们可能要记住的十几个神话。

误区1:数据分析需要重大投资

这些天来,似乎每一项技术努力都必须经过健全性财务的过滤。当IT和业务经理提议启动一个项目或部署一个新的工具时,"它将花费多少钱?"是他们首先得到的问题之一。

有些人认为,数据分析本质上是一项昂贵的工作,因此只限于拥有大额预算或大量内部资源的组织。但并不是所有的数据分析工作都需要重大投资,移动和在线房地产服务提供商Trulia的工程副总裁Deep Varma说。

"现在市场上有很多开源以及其他工具,可以帮助你开始展示数据分析的价值,"Varma说。"你需要对你的内部数据存储以及你要解决的问题有一个很好的了解。云计算也让你很容易尝试分析解决一个商业问题"。

现代分析 "基于云系统和大数据架构,顾名思义,比传统的数据仓库系统要便宜不少,"咨询公司EY的分析学全球领导人Beatriz Sanz Saiz补充说。

"另外,数据和分析的应用通常是为了实现三个结果:提高流程效率、收入增长和主动风险管理,"Saiz说。"所以总的来说,数据和分析的应用给任何公司都带来了巨大的成本效益。"

误区 2:您需要大数据来执行分析

对许多人来说,大数据和分析的概念是相辅相成的。他们的想法是,企业在进行分析之前需要收集大量的数据,以产生商业洞察力,改善决策等。

当然,大数据分析的好处已经被充分证实,拥有资源的公司确实可以通过利用其数据存储作为分析工作的一部分来获得巨大的竞争优势。但认为大数据是分析工作的必要条件的想法并不正确。

"很多时候,人们试图捕捉尽可能多的数据;他们听到'大数据'就会感到兴奋,"人事公司Allegis Global Solutions的商业智能执行总监Tim Johnson说。"人们的误解是,数据越多越好,机器会把它全部整理出来。"

然而,分析师需要的不是更多的数据,而是具体的数据。"约翰逊说:"95%的用户正在寻找与他们的工作相关的信息,并支持决策和改善绩效。与其关注更多的数据,企业必须考虑业务用户,不仅要确定他们需要访问什么数据,还要确定数据的呈现方式。"

约翰逊说:"以多种格式提供对每一点信息的访问可能会让人不知所措,而且实际上会扼杀采用。"相反,要找出什么对他们来说是重要的,以及你如何以最简单的格式向他们展示这些信息"。

误区3:分析消除了人为偏见

自动化系统的执行方式不应该是有偏见的。但技术是由人类建立的,所以消除所有偏见几乎是不可能的。有些人认为分析和机器学习消除了人类的偏见。

"不幸的是,这完全不是事实,"全球技术咨询公司ThoughtWorks的技术主管迈克-梅森说。"算法和分析是使用'训练数据'进行调整的,并且会重现训练数据所具有的任何特征。"

梅森说,在某些情况下,这将给分析结果带来良性偏差;在其他情况下,则会出现更严重的偏差。"他说:"仅仅因为'算法这么说'并不意味着答案是公平或有用的。

误区4:最好的算法总是赢家

实际上,事实证明,只要有足够的数据,"有时算法并不重要",梅森说。在他引用的一篇IEEE文章 "数据的不合理的有效性 "中,谷歌工程师认为,简单的统计模型,加上极其大量的数据,比包含大量特征和总结的 "智力超群 "的模型取得更好的结果。

"在某些情况下,只要压缩更大的数据堆就能取得最好的结果,"梅森说。

误区 5:算法是故障安全的

约翰逊说,人们固有的对统计模型和算法的信任程度很高,而且随着企业建立他们的分析项目,他们越来越依赖复杂的模型来支持决策。

"因为人们不了解模型、算法和其他先进的数据科学实践,所以他们对它们信任,"约翰逊说。用户不觉得他们有知识来挑战这些模型,所以他们必须相信建立这些模型的 "聪明人",他说。

"在过去的50到60年里,我们听说人工智能将在20年内接管这一切,而且我们将继续听到人们这样说,"约翰逊说。"在我们可以公然相信机器学习和结果之前,还有很多地方需要覆盖。在此之前,我们需要挑战那些建立算法和模型的人,让他们解释答案是如何得出的。这并不是说我们不能依赖结果;而是说我们需要透明度,以便我们能够信任和验证分析结果。

误区6:数据科学是一门神秘的"黑色艺术"

近年来,数据科学这门学科受到了很多关注,有时会让人对它到底是什么产生混淆。基本上,它涉及使用算法来寻找数据中的模式。

"数据科学似乎很神秘,因为这些算法能够分析更多的变量和更大的数据集,而不是人的大脑所能理解的,"数据存储公司美光的首席信息官Trevor Schulze说。

"Schulze说:"随着近年来计算能力和内存的扩展,我们现在能够快速解决那些在10年前用任何技术都无法解决的问题。"数据科学是统计推理技术的自然演变,这些技术几十年来一直被人们所熟知。一旦你理解了数学,数据科学就没有什么神秘的。

误区7:要做更多的数据科学,你需要更多的数据科学家

数据科学家是如今所有技术专业人员中需求量最大的。如果他们重新指导他们的工作内容,也许组织可以用更少的这些专业人员。

"梅森说:"很多数据科学家的时间都花在了非增值活动上,比如寻找数据集,把数据带到可以工作的地方,以及转换和清理数据。"鉴于雇用数据科学家有多难,这些低价值的任务并不是你希望他们从事的。

"Uber的米开朗基罗平台允许数据科学家专注于特征工程、提取和分析,而不是到处搬运数据,因此允许他们大规模地提高生产力,"梅森说。

误区 8:分析时间太长

如今,快速完成工作——无论是将产品或服务推向市场,还是近乎实时地回应客户的询问,都是公司的一个重要竞争考虑。分析听起来像是需要很长时间才能完成的事情,与实现速度和敏捷性的目标相悖。

Saiz说:"仍然存在这样的神话,即这些类型的项目需要太长的时间,而且相当复杂。"在一天结束时,你会发现这一切都与人才有关。有了正确的技能组合和敏捷方法的应用,大问题可以在几天或几周内得到解答,而不是几个月。"

误区9:技术是困难的部分

随着当今可用技术数量的不断增加,选择正确的工具组合来部署和集成以从分析团队获得所需的结果并不是一件容易的事,咨询公司ISG的IT采购和数字咨询服务总监James Burke说。

然而,真正困难的部分是"将组织结构和运营模式放在一起,将人员,流程,技术角度所需的所有内容放在一起,"Burke说。"此外,你如何在现有组织内部或'旁边'做到这一点,对于组织来说似乎是最困难的。

同样重要的是,不要假设分析工具将完成所有工作。"仅靠技术永远无法解决任何业务问题,"咨询公司West Monroe技术实践的高级主管Greg Layok说。"在急于创建数据湖的过程中,组织反而陷入了沼泽,或者这可能是任何人都难以弄清楚的信息泥沼。

技术并不能解决分析问题,Layok说。"首先,确定一个业务问题,然后问,'我需要什么数据来解决这个问题?'"他说。"这将帮助您识别组织内的数据差距。"

误区10:数据分析应该是一个独立的部门

咨询和数据收集公司Delvinia的总裁兼首席创新官Steven Mast说,在一些组织中,数据分析作为一个部门独立运作,而在其他组织中,它被深深嵌入到一个跨职能的团队中。

"马斯特说:"然而,鉴于所有业务领域的数据爆炸和变化的速度,部门模式是行不通的。"随着组织变得更加以客户为中心,数据驱动的分析专家应该是一个业务部门的核心,而不是作为一个你打电话寻求支持的部门来运作。"

马斯特说,今天组织面临的许多复杂问题都在业务部门内,而这些问题的许多解决方案都隐藏在数据中。"数据科学家和专家,与这些业务部门密切合作,并使用大型数据集和人工智能,将是孵化下一代产品、服务和客户体验的关键。"

误区11:分析只适合博士

分析团队中有很多受过良好教育的人是很好的,但这并不是成功的要求。

"公司倾向于认为,如果没有博士加入,他们将无法进行一流的分析," Saiz说。"现代分析需要融合各种技能——那些对新兴技术和开源软件很精通的人。建立具有不同技能的'豆荚'包括大数据架构师、数据工程师、数据科学家、数据可视化专家等等,这才是最重要的。"

误区12:人工智能将摧毁就业,破坏经济

历史上,新技术的引入扰乱了许多工作和行业,人们担心人工智能将消除对人执行某些任务的需求。

"人工智能解决方案在解决某些种类的问题方面比人要好得多,"舒尔茨说。"人工智能可以读得更快,记得更多,计算复杂的数学关系比任何一个人都好。然而,人工智能没有能力处理真正新颖的情况,而这正是人类擅长的地方。"

舒尔茨说,可以肯定的是,某些工作已经因人工智能的发展而失去或减少,其他工作也将随之而来。"他说:"但是,我们人类理解和处理完全不可预见的情况的能力不会被任何目前理解的人工智能技术所取代。"在可预见的未来,对人工智能最有效的方法将是用人工智能系统增强人类的能力,执行一些算法优于人的'重活'。虽然许多工作将因人工智能而改变,但人将继续是这个商业生态系统的关键部分。"

责任编辑:赵宁宁 来源: ITPUB
相关推荐

2017-12-27 11:38:14

数据分析大数据算法

2023-05-09 12:20:32

数据中心

2019-05-06 16:15:56

人工智能AI

2023-05-28 22:48:29

程序员编程

2012-07-03 10:52:07

数据中心电力

2024-08-05 11:11:16

2020-05-28 08:58:29

数据分析分析系统数据

2020-05-28 11:34:08

互联网数据分析数据

2021-07-07 09:50:23

NumpyPandasPython

2023-08-15 14:09:38

DevOps开发人员运维

2019-12-05 18:04:38

大数据技术算法

2021-11-15 12:33:16

网络安全网络攻击网络威胁

2015-03-17 09:18:52

SaaS应用程序遗留系统

2016-09-16 23:21:51

数据分析数据建模

2019-11-11 22:42:51

数据分析企业管理数据

2020-07-26 19:19:46

SQL数据库工具

2018-08-23 17:15:10

编程语言Python数据分析

2021-04-19 14:18:17

数据分析互联网运营大数据

2013-01-06 11:01:59

大数据分析

2018-11-08 15:12:16

数据分析算法决策树
点赞
收藏

51CTO技术栈公众号