揭穿数据分析的12个神话

大数据 数据分析
在IT业界中,炒作越多,误解就越多,数据分析也不例外。作为当今IT技术最热门的方向之一,数据分析可以带来显著的业务收益,但是带来的误解可能也会阻碍顺利地、及时地交付可能让业务用户和最终客户受益的分析能力。随着企业组织创建或者扩展其分析战略,这里有十几个需要揭穿的数据分析神话需要他们牢记在心。

在IT业界中,炒作越多,误解就越多,数据分析也不例外。作为当今IT技术最热门的方向之一,数据分析可以带来显著的业务收益,但是带来的误解可能也会阻碍顺利地、及时地交付可能让业务用户和最终客户受益的分析能力。

随着企业组织创建或者扩展其分析战略,这里有十几个需要揭穿的数据分析神话需要他们牢记在心。

揭穿数据分析的12个神话

神话1:数据分析需要大量投资

现在来看,几乎每一项技术都必须经过财务稳健性的过滤。“这项技术成本多少?”这个问题是IT和业务经理们在提出启动新项目或者开发新工具的时候,会被问到的第一个问题。

有些人认为,数据分析的本质是一项成本高昂的工作,因此仅限于那些有着充足预算或者大量内部资源的企业组织。但并非所有数据分析项目都需要大量投资,移动和在线房地产服务提供商Trulia副总裁Deep Varma这样表示。

“现在市场上有这么多的开源工具和其他可用工具,可以帮助你开始展示数据分析的价值。你需要很好地了解你的内部数据存储和你试图解决哪些问题。云也让尝试用分析来解决业务问题变得更轻松。”

现代分析“是基于云系统和大数据架构的,从定义上看其成本不如传统数据仓库系统那么高,”咨询公司EY全球分析负责人Beatriz Sanz Saiz表示。

“而且,数据和分析通常用于实现三个结果:改善流程效率、收入增长和主动风险管理。总而言之,数据和分析的应用,给任何公司带来了重要的成本收益。”

神话2:你需要大数据来执行分析

对很多人来说,大数据和分析这两个概念是齐头并进的。这个想法是说,企业组织需要在执行分析之前收集大量数据,以便产生业务洞察,改进决策等。

大数据分析的某些好处已经很明确了,那些拥有资源的企业确实可以通过利用数据存储作为分析的一部分来获得显著的竞争优势。但是,大数据是分析必不可少的想法是不正确的。

人力资源公司Allegis Global Solutions商业智能执行总监Tim Johnson表示:“人们经常试图获取尽可能多的数据,他们听到大数据就会兴奋不已。有一个误解就是,数据越多越好,机器会对所有这些数据进行筛选。”

但是,分析师们需要的是特定的数据,而不是更多的数据。Johnson表示:“有95%的用户在寻求与他们工作相关的信息,来支持决策和改善业绩。”但是企业组织必须考虑业务用户来决定他们需要哪些数据,还有如何呈现这些,他们需要的不是数据越多越好。

Johnson说:“要能够以各种方式访问每一条信息,这有点不太可能,实际上也会阻碍信息的采用。相反,你要找出对他们最重要的信息、你如何以最简单的形式向他们呈现这些信息。”

神话3:分析可以消除人为偏差

自动化系统执行的方式不应该是有偏见的。但是技术是由人开发的,所以消除所有的偏差几乎是不可能的。有人认为,分析和机器学习会消除人为偏差。

“遗憾的是,这根本不是真的。我们使用‘训练数据’来优化算法和分析,这会重新引发训练数据所具有的特征。”

在某些情况下,这会给分析结果带来偏差;有些情况下,则有更严重的偏差。Mason表示:“算法这么说,并不意味着回答是公平的或者有用的。”

神话4:最好的算法总是会胜出

事实上,有了足够的数据,“有时候算法并不重要,”Mason表示。在他援引的一篇题为“数据的不合理有效性”的IEEE文章中,Google工程师认为,简单的统计模型,加上非常大量的数据,可以比包含了大量特性和总结的“智能优越”模型实现更好的结果。

“在某些情况下,仅仅处理大量数据就能实现最好的结果,”Mason说。

神话5:算法是安全的

从很大程度上看,人们固有信念中是信任统计模型和算法的,随着企业组织建立他们的分析程序,他们越来越多地依赖复杂模型来支持决策。

“因为人们不了解模型、算法和其他先进的数据科学实践,所以人们信任这些。用户不觉得自己具有挑战这些模型的知识,所以他们反过来觉得必须信任建立了这些模型的‘聪明人’。”

“在过去50到60年中,我们一直听到有关于人工智能将在未来20年内占主导的说法,我们还会继续听到有人这么说。在我们公然地相信机器学习及其结果之前,我们还有很多没有涉足的领域。在那之前,我们需要向那些构建了算法和模型的人发起挑战,解释这些答案是怎么来的。这并不是说我们不能依靠结果,而是我们需要透明度让我们可以信任分析、并对分析进行验证。”

神话6:数据科学是一种神秘的“黑色艺术”

数据科学这个学科近些年来受到了很多关注,有时候会产生混淆,数据科学究竟是什么?基本上,数据科学涉及到使用算法来发现数据中的模式。

“数据科学似乎很神秘,因为这些算法能够分析比人脑能理解的更多变量和更大的数据集,”数据存储公司Micron首席信息官Trevor Schulze表示。

Schulze说:“近几年随着计算能力和内存的扩大,我们现在能够快速解决10年前技术解决不了的问题。数据科学是统计推断技术的自然演变。一旦你了解了数学,数据科学就没有什么神秘的地方了。”

神话7:要做更多的数据科学,你就需要更多的数据科学家

数据科学家是当今所有技术专业人员中最迫切的人才类型。如果企业组织重新定位数据科学家的工作内容,那么用更少一点的数据科学家就可以做到同样的事情。

“有很多数据科学家的时间是花在了非增值活动上,例如寻找数据集、把数据放在可以处理的地方、转换和清理数据。鉴于聘请数据科学家是很困难的一件事,所以你肯定不是想让数据科学家来做这些低价值的工作吧。”

“Uber的Michelangelo平台让数据科学家可以专注于功能设计、提取和分析,而不是对数据进行挖掘,这样可以大大提高生产力。”

神话8:分析需要的时间太长

现在快速完成工作对于企业来说是一个巨大的竞争考量因素,不管这个工作是将产品或者服务推向市场,还是以接近实时的方式响应客户询问。分析听起来像是需要花费很长时间,这与实现速度和灵活性的目标背道而驰。

“分析项目需要花费很长时间并且非常复杂——这个误解仍然存在。最终,这是关于人才的问题。通过恰当的技能组合和敏捷方法的运用,大问题可以在几天或者几周内得到解决,而不是几个月的时间。”

神话9:技术是最难的部分

今天可用的技术越来越多,选择部署和集成合适的工具组合来从分析团队那里得到预期的结果,这不是像公园里散步这么简单的事,咨询公司ISG的IT外包和数字咨询服务总监James Burke表示。

真正难的部分是“把组织结构和运营模式结合到一起,把所有从人、流程、技术角度所需要的东西结合到一起。而且,你如何在现有企业组织内部或者临近的地方做这件事情,似乎对企业来说是最难的部分。”

不要以为分析工具会完成所有工作,这一点也很重要。咨询公司West Monroe的技术实践高级总监Greg Layok表示:“技术本身并不会解决任何业务问题。如果企业组织急于创建数据湖的话,最终会陷入沼泽,一个其他任何人都无法了解的信息沼泽中。”

技术并不解决分析问题,Layok表示。“首先,发现一个业务问题,然后问‘我需要哪些数据来解决这个问题?’这将帮助你发现企业组织内的数据鸿沟。”

神话10:数据分析应该是一个单独的部门

在有些企业组织内,数据分析是作为一个单独的部门运作的,还有一些是被嵌入到了一个跨职能部门中,咨询和数据收集公司Delvinia总裁兼首席创新关Steven Mast这样说。

“不过,随着数据扩展到所有业务领域,以及这一变化的快速发生,部门模式已经不起作用了。随着企业组织变得更加以客户为中心,数据驱动的分析专家应该成为业务部门的核心,而不是作为一个你打电话许寻求支持的部门来运作。”

今天企业组织面临的很多复杂问题都是发生在业务部门的,这些问题的很多解决方案却隐藏在数据中心。Mast表示:“数据科学家和数据专家正在与这些部门紧密合作,使用大型数据集和人工智能,这将成为培育下一代产品、服务和客户体验的关键。”

神话11:分析仅限于有博士学位的人

在分析团队中有很多受过良好教育的人才是很棒的,但并不是成功的要求条件。

Saiz说:“企业往往认为,团队中没有博士的话他们就无法实现最佳的分析。现代分析需要融合的技能——那些精通新兴技术和开源软件的人。用拥有不同技能的人才来打造团队,包括大数据架构师、数据工程师、数据科学家、数据可视化专家,这才能体现差异。”

神话12:人工智能会毁掉人类的工作、破坏经济

从历史上看,新技术的引入颠覆了就业和行业,人们担心人工智能会消除人类执行某些任务的需求。

“人工智能解决方案在解决特定问题方面要比人类好得多,人工智能读得更快、记得更多、计算复杂数据关系比任何人类都好。但是,人工智能不能处理新出现的情况,这是人类擅长的地方。”

可以肯定的是,人工智能的发展已经让很多工作消失或者减少,接下来也还会有很多工作如此,“但是,我们人类理解和应对完全不可预见的环境方面不会被现有任何已知的人工智能技术所取代。对于可预见的未来,最有效的方法就是利用人工智能系统来增强人类能力,让人工智能执行某些‘繁重任务’,这方面算法的表现是好于人类的。尽管很多工作会因人工智能而妨碍变,但是人类仍然是这个商业生态系统中的重要组成部分。”

责任编辑:未丽燕 来源: 至顶网编译
相关推荐

2022-04-01 06:18:48

数据分析IT领导者

2023-05-09 12:20:32

数据中心

2023-05-28 22:48:29

程序员编程

2012-07-03 10:52:07

数据中心电力

2024-08-05 11:11:16

2019-05-06 16:15:56

人工智能AI

2020-05-28 08:58:29

数据分析分析系统数据

2020-05-28 11:34:08

互联网数据分析数据

2021-07-07 09:50:23

NumpyPandasPython

2019-12-05 18:04:38

大数据技术算法

2021-11-15 12:33:16

网络安全网络攻击网络威胁

2023-08-15 14:09:38

DevOps开发人员运维

2016-09-16 23:21:51

数据分析数据建模

2015-03-17 09:18:52

SaaS应用程序遗留系统

2019-11-11 22:42:51

数据分析企业管理数据

2021-04-19 14:18:17

数据分析互联网运营大数据

2013-01-06 11:01:59

大数据分析

2018-11-08 15:12:16

数据分析算法决策树

2018-08-23 17:15:10

编程语言Python数据分析

2020-07-26 19:19:46

SQL数据库工具
点赞
收藏

51CTO技术栈公众号