大数据技术是如何发展的?

大数据
事实表明,大数据的挑战仍然集中在在正确的时间将正确的信息提供给正确的人,即使信息来源和使用在增长。

​ 2013年,行业专家宣布开始进入大数据时代。他们认为,大数据使组织能够以正确的速度和正确的时间存储、管理和操作大量数据,以获得正确的见解。

大数据并不代表一种单一的技术,而是一组不同的数据管理技术,其根源是之前的几次技术变革。

现在的问题是:大数据现在在哪里?成熟它的应用需要什么? 

分析机构最近进行的调查发现,公平地说,大数据还没有带来重大的商业成果。尽管有这么多的宣传,但大多数企业员工仍然无法方便地获得完成工作所需的信息。随着信息源、使用和用户数量的增长,问题仍然集中在在正确的时间将正确的信息提供给正确的人。

数据仓库vs.数据湖vs.数据结构

为了容纳所有这些数据,存储和管理系统如雨后春笋般涌现,例如数据仓库、数据湖和数据结构。但是,在解决方案和平台级别上,需要一个数据结构作为跨企业的所有数据集成、管理和治理的保护伞。企业之间必须具有凝聚力。

行业专家指出,集中数据通常是不可行的。或者使用服务对分析进行原型化,以访问不同的数据源,然后如果它被证明是富有成效的,并且业务需要指示它。中心化在后面完成。

Hurwitz公司分析师Dan Kirsch指出数据去中心化趋势和数据结构之间的联系。他说,“我们已经看到数据结构方法越来越受欢迎,因为拥有一个中央存储库来保存所有的数据是不现实的。”因此,数据结构需要允许异构数据位置。数据结构方法有助于解决分担责任的挑战,也就是每个团队负责自己的数据,然后将其连接起来,而不是将数据转储到数据湖中。AWS公司认为,数据湖是分析成功的唯一途径。当然,他们希望企业将所有数据都转储到AWS云平台上。

Gartner公司数据与分析副总裁Nick Heudecker对此表示认同,并认为所有这些趋势都很重要。他指出,“每个概念服务于不同的用户和用例,高性能、可重复分析的数据仓库。用于问题开发/实验的数据湖。数据网格用于使用带有治理监督的分布式数据。因此,没有进行混淆。”

将大数据战略集中在一个平台上

专家们利用双重策略,但坚持单一平台。通常有两种策略。一种策略是针对产品,另一种是针对分析。每个都有自己的核心枢纽平台,并支持多个数据存储库。然后在两个核心枢纽之间有一个ETL平台。

但是,是哪一家供应商提供了这些服务的大部分呢?还没有看到任何一家供应商认为能够独立提供完整平台。

多个数据存储库在很多方面并不是集中数据,而是集成数据。而如何将所有数据集成起来,使其可视化,并将其连接到其他系统。

集中所有数据会带来成本、管理和安全问题。数据被锁定在业务线应用程序中,在办公场所和云计算生态系统中。连接数据所在位置有助于消除风险,提高洞察速度。这并不是一个单一的供应商解决方案故事。一些企业提供查询功能,但治理故事还没有被任何人充实起来。大数据中使得移动数据成为一个挑战。多平台是常态。如果幸运的话,可以将工具和技能标准化。

因此,数据结构是一种数据管理概念,用于实现灵活的、可重用的和增强的数据集成管道、服务和语义,以支持跨多个部署和编排平台交付的各种操作和分析用例。

确保遵守数据治理和数据隐私规则

为了有效地管理数据,企业必须清楚地了解自己拥有哪些数据,需要了解他们的数据湖或数据结构中有哪些类型的数据。如果个人身份信息(PII)参与了一个特定的应用程序或新的努力,企业需要指派一名高管监督个人数据的适当使用,他还可以帮助解决数据的可行性和适用性的问题。

管理人员扮演着至关重要的治理角色。因此,定义“管理员”很重要,他们的全部工作就是在信息的最初来源处访问和管理对信息的更正。他们从业务团队中轮换出来,制定KPI。

重要的是预先定义管理员,并知道如何在过程中与他们签入。获得管理员对用户体验设计的反馈也很重要。

云计算技术对大数据战略的影响?

云计算正在成为计算和存储的另一种形式,而不是一个独立的环境。云计算管理和可见性很重要。假设云计算是一种快速消耗预算的方法。在很多情况下,没有理由将一些应用程序移到云端。能够在云上立即对概念和实验进行证明是非常重要的。

云计算允许用户尝试新事物,并根据需要增加或删除计算能力,而不必等待工作完成。

数据过程在哪里成熟?

流程需要明确定义术语的基础。从事务系统开始是至关重要的。如果数据一开始是错误的,就需要花费大量时间来清理和增强该数据。

在促进围绕数据共享场景的领域需要大部分成熟度,比如数据读写能力。数据操作可以帮助提高弹性,但它仍然是一种颠覆性的技术实践。

结语

显然,大数据正处于分析师所说的“幻灭低谷”。尽管数据驱动型公司将是长期赢家,但仍有工作要做。

获胜者需要进行数据治理,以使数据足够用于任务和保护。他们还需要改进数据处理过程,而数据操作和数据治理可以一起提供帮助。​

责任编辑:华轩 来源: e-works
相关推荐

2024-02-20 13:16:00

大数据数据仓库数据湖

2018-06-25 11:20:18

LinuxPython大数据

2024-01-19 08:04:13

2016-12-23 14:43:37

2021-11-17 10:37:39

语音识别技术人工智能

2017-07-10 09:51:20

大数据数据技术数据分析

2021-06-01 09:00:00

大数据旅游IT

2021-08-16 13:50:56

大数据深信服

2018-07-19 20:35:42

大数据云计算BI

2018-07-12 13:15:06

2024-04-22 07:30:00

大数据

2017-11-01 14:29:38

2020-11-01 19:00:55

开源区块链区块链技术

2016-10-10 13:25:18

2021-07-30 19:07:27

大数据云计算云原生化

2021-02-25 11:36:28

大数据Gartner

2013-03-04 15:04:16

2014-12-16 19:05:51

Informatica大数据

2017-10-23 13:52:31

数据库硬件

2023-03-09 15:53:05

TiDB数据库MySQL
点赞
收藏

51CTO技术栈公众号