处理数据?不要一概而论

大数据
如今,创建和使用这类数据集的企业数量有所增加。这类数据并不是大型社交媒体和网络企业的专利,而是在数千家企业中涌现出来。“大数据”这个称呼现在已经成为很多人的常态。这些数据集很大,更新速度很快,而且有序。这使得数据分析更容易,pb级的...

根据《经济学人影响》研究发现,37%的企业将数据驱动思维列为业务关键的优先事项,而另有57%的企业将其列为中等或高度优先事项。

该研究还发现,80%的企业已经实施了大数据分析。然而,目前从数据中看到真正价值的公司比例仍然低得惊人,56%的高管没有从大数据分析项目中察觉到价值。同样,根据普华永道的数据,到目前为止,只有16%的企业通过在云端实施数据和分析项目实现了商业价值。

那么,为什么这么多企业在数据和分析项目实际运作中遇到困难呢?因为不同的用例和应用利用不同类型的数据,适用于一种情况的方法并不适用于另一种情况。要知道什么会起作用,同样,什么不会起作用,必须了解有关这些数据集如何随着时间的推移而创建、存储和访问的一些关键细节。


大而简单与小而复杂

其中一种数据集通常被称为“大数据”。在过去的十年中,这个术语被用于描述服务于在线客户服务的应用创建的数据集。围绕大数据建立的技术是为了处理一直在流动的大量数据而创建的。

如今,创建和使用这类数据集的企业数量有所增加。这类数据并不是大型社交媒体和网络企业的专利,而是在数千家企业中涌现出来。“大数据”这个称呼现在已经成为很多人的常态。这些数据集很大,更新速度很快,而且有序。这使得数据分析更容易,pb级的信息可以被快速扫描和使用。

然而,并不是所有的数据集都遵循这种模式。运营数据是业务应用在接受订单时创建的数据,并通过运行业务的企业资源计划(ERP)应用进行管理。这包括财务和会计系统、供应链运营和其他流程。操作数据集不是可以快速大规模处理的有序数据,而是高度连接且极其密集的数据。

这里的挑战是,建立ERP系统是为了从交易中获得每一盎司的性能。每个业务职能部门都有自己的交易记录系统,这些系统经过优化以提高特定功能的性能。

例如,客户销售将导致创建付款发票、制造和生产中的销售订单,以及内部帐户中的供应链流程和财务分类系统所需的订单。这些系统都相互连接,每个客户记录都必须在每个系统中更新。

实际上,跟踪业务数据元素和关系的数以万计的单个数据库表必须随着时间的推移进行更新。因为这种优化通常发生在每个领域,所以没有一个ERP提供整个业务的联合视图。

分析运营数据可以帮助了解业务的运行情况。然而,数据集的分离使得很难回答业务想要问的问题。例如,适用于大数据集的方法通常会在相互关联的ERP数据中失败。我们今天所知道和使用的数据管道模型是为大数据而建立的,而不是为ERP数据构建的。

设计数据分析方法

数据管道是团队用来从数据中获取价值的一组工具和过程。它从商业应用程序中获取信息,然后清理、组织并将数据呈现给需要的人。对于操作数据,试图以这种方式应用管道是无效的。

ERP系统用于提高交易速度并保持跨多个表更新客户记录的方法,与使用数据管道实现分析的方法并不真正兼容。操作数据不是已经组织好的直接数据,而是分布在多个不同的系统中。

所需的信息可能分布在50个或更多不同的表中,而不是能够在一个地方查看单个事务。然后,这些表可能需要多次查找和计算,以创建分析师想要的最终结果。

要将数据放入数据管道,需要理解所有这些不同的连接。为了建立这种关系,分析师通常试图将这些联系分解成越来越小的部分。这里的目的是创建一个简化的数据视图,然后可以运行查询,而不是试图一次性处理所有连接。

这种方法的问题是它过度简化了数据,这意味着分析师只能回答预定义的问题。如果他们还需要其他东西,那就意味着返回源系统以获取数据并将其调整到合适的状态的漫长过程。这意味着获得见解的时间更慢,因此实现结果的时间也更慢。

要解决这个问题,我们必须停止把每个数据分析问题都看成一个更复杂的管道就能解决的解决方案。相反,我们必须考虑如何从一开始就处理连接的数据集。实际上,这意味着让用户可以访问数据,而无需管理将数据传输到他们的管道。

它还包括在进行任何查询之前有正确的分析方法。Gartner将这种方法定义为查询加速,即在创建任何查询之前扫描整个数据集进行分析。它把所有的数据都带到了问题上,以便快速回答问题。这也改善了查询过程,因为分析师可以随着时间的推移提出他们想要问的问题,而不是拘泥于既定的问题。

根据需要使用正确的方法

为了使数据分析项目成功,我们必须考虑我们必须达到的目标和存在的目标。少数成功实施数据和分析项目的企业表明,我们必须观察我们在整个业务中拥有的数据类型,然后在需要的地方应用正确的工具和方法。随着越来越多的企业利用数据来创造竞争优势,并帮助决策过程,做好这方面的工作将变得至关重要。

责任编辑:庞桂玉 来源: 千家网
相关推荐

2014-08-28 14:09:40

AppAndroid Wea应用

2009-09-04 09:38:00

2024-09-26 12:33:29

JSAPI循环

2017-08-11 19:35:48

机器学习岗位面试

2023-06-27 13:35:04

RedHat开源商业

2023-04-27 09:55:09

分类器ROC曲线混淆矩阵

2015-08-21 10:07:54

程序员充满压力

2012-08-20 09:56:27

Web

2015-11-23 13:17:42

引导设计

2009-11-19 17:25:12

Oracle数据库物理

2014-02-12 09:31:53

2018-04-02 09:49:51

数据备份

2016-01-13 15:14:06

云计算OpenStack

2015-09-01 10:29:44

数据安全

2023-04-13 08:25:03

2020-08-18 11:21:28

数据挖掘机器学习算法

2020-05-25 11:20:34

华为

2015-11-24 10:48:20

ENI经济和信息化

2019-11-17 23:23:46

Python Nump函数数据处理

2023-07-20 20:54:09

点赞
收藏

51CTO技术栈公众号