DataOps，开启数据管理的新时代-大数据管理时代

[[427317]]

【51CTO.com快译】最近的一项针对企业正在面临的大数据挑战的调查，揭露了一个有关数据使用的惊人事实：有38%的企业“缺乏”令人信服的合理方式，去使用他们持有的数据;34%的公司没有足够成熟的流程，去持续处理大数据;24%的公司甚至无法让大数据转换为可供最终用户使用的有价值信息!无论该调查是否有所夸大其词，至少它表明了许多企业并不知道自己可以对数据做什么、必须做什么、以及如何合理从客户处收集数据。

可以说，在以数据为驱动的竞争格局中，忽视数据的价值，甚至无法充分发挥其潜力，对于组织来说都只会意味着灾难性的结局。许多组织往往在收集大量数据的过程中，不知道如何使用适当的流程，来处理和转化数据。

当然，部分问题源自历史遗留的数据管道。伴随着数据在数据管道中从源头移至目标系统，每个阶段对于数据的含义，以及数据的使用，都可能产生不连贯的数据视图。这些会让数据管道变得脆弱且难以迭代，进而使得组织在面对变化时，出现反应上的迟缓。对此，我们值得采取的方式便是：DataOps。

什么是DataOps?

DataOps(即，数据运营的缩写)是一种协作式数据管理方法，强调的是组织内部各种数据管道的通信、集成和自动化。

与数据存储管理不同，DataOps并非主要关注数据的“存储”，而是数据的“交付”。也就是说，如何让所有数据需求者都能够轻松地获得、访问和使用数据。其管理的目标是：创建可预测的数据、模型、以及相关组件的交付和变更管理，以便在整个组织内和数据消费者中，更快地交付出有价值的信息。

为此，DataOps需要通过各项技术，来自动化数据的设计、部署、管理和交付，缩短数据分析的周期，进而改善其使用和提供的价值。在此基础上，DataOps能够大幅提高组织对于市场变化的响应速度，以及应对挑战的能力。

DataOps能够解决的挑战和问题

大数据给我们带来的最大好处莫过于，快速可靠的数据驱动和可实现的业务洞见。对此，各类组织和技术人员需要将DataOps与敏捷、DevOps和精益制造等方法实践相结合，以应对如下方面的数据挑战：

速度

现代化的组织往往需要对来自不同源头、不同形式的数据，持续进行清理、改进和再利用。只有经过这样复杂且漫长的过程，组织才能够从那些快速发展的业务环境中，发掘出潜在的数据洞见。而DataOps恰好能够从根本上提高此类洞见的发掘速度。

数据类型

有时，组织收集到的数据可能是非结构化的格式。而此类数据源极有可能为新兴的业务挑战提供线索。因此，组织仍然以结构化的格式，去处理数据的话，是远远不够的。鉴于此类数据洞见提取的难度，DataOps能够方便组织去更好地识别、收集和使用来自每个可用数据源的数据。

数据孤岛

DataOps打破了组织内部数据过于集中的孤岛状态。同时，它能够通过构建弹性系统，为需要访问数据的每一方提供自助式的服务。也就是说，弹性系统能够随着组织的业务进行扩展，为数据用户提供一种可预测的方式，实现对数据的按需查找和使用。

DataOps的业务优势

对于数据驱动型企业而言，他们需要尽快将数据交付给数据工程师、数据科学家、机器学习(ML)工程师，甚至客户。而DataOps则能够为他们带来如下业务优势：

最大限度地利用数据

DataOps为包括：分析师、管理层、以及客户在内的所有数据用户，提供自动化的数据交付，并在此过程中允许每个部门，从数据中提取最大的信息价值。显然，它能够提高组织的竞争力、面对变化的响应能力、以及更高的投资回报率。

在正确的时间获得正确的洞见

目前，大数据需要关注的一个显著问题是，提供数据洞见的时效性。也就是说，过于延迟地提供正确的洞见，对于企业来说是没有意义的。而DataOps能够将数据快速地提供给需求方，以便更快地做出更明智的决策，使组织能够快速地适应市场的变化。

提高数据生产力

DataOps会使用自动化工具，将数据以自助操作的服务方式予以交付。它不但消除了数据请求和数据访问之间的固有延迟，而且让团队能够据此做出以数据为驱动的决策。同时，由于DataOps摆脱了各种需要手动进行数据管道变更的管理流程，因此组织能够针对数据管道进行简化、快速、且自动化的变更。

针对结果优化的数据管道

DataOps在数据管道中加入了一个反馈循环，允许各种数据消费者识别他们所需的特定数据，并从中获得定制的洞见。据此，每个团队都可以使用这些洞见，来进一步降低成本，发现新的机会，并提高组织的盈利能力。

DataOps的原则

在技术方面，DataOps能够在不影响数据分析的速度或质量的基础上，提高数据应用的可扩展性。由于借鉴了DevOps的经验教训与实践，因此DataOps在许多关键方面与DevOps高度重合。下面是DataOps的三个基本原则：

持续集成

由于DataOps能够动态地识别、整理、集成和提供来自不同源头的数据，因此新的数据会被DataOps自动集成到数据管道中，并使用AI/ML工具，提供给各个需求方。

DataOps的自动化完全简化了数据从被发现到转换、管理、洞察、以及定制的全过程。实际上，它可以将数据以实时流的形式，直接传输到预测算法中，以便向用户，特别是数据消费者提供即时的洞见。

这种经过优化的数据集成过程，确保了数据在被发现和利用的过程中，不会浪费过多的时间。

持续交付

根据规模效应的理论，越多的人去访问组织持有的数据，从中提取的洞见就越具有参考价值。不过，数据的可访问性，取决于数据的治理。我们只有通过DataOps，在整个组织内实施数据治理，才能保证数据能够在安全、且保有隐私的前提下，提供可访问性。

为了保证数据能够以符合内部数据质量、以及数据屏蔽规则的协作方式，有目的性地交付给内、外部数据消费者，我们通常需要使用智能化的数据平台来实现。也就是说，只有当数据的质量、隐私和安全得到了保证时，各种相关方才有信心使用它，并从中获得准确的洞见，而不必担心数据治理所带来的影响。

持续部署

如今，各种欺诈检测、AI聊天机器人、数字化销售、以及供应链管理等关键任务功能，都需要数据驱动型应用，实时地根据最新可用的数据，来进行决策。而持续部署正是保证用户与应用能够无缝访问数据的前提条件。

DevOps与DataOps

虽然DataOps借鉴了DevOps的基本概念和操作流程，但是两者之间仍然存在如下显着的差异：

人员条件

尽管DataOps的从业者可能非常精通技术，但是他们需要更加专注于，为数据用户创建算法、模型和视觉辅助等工具。同时，他们还应当具有可落地的软件工程思维。

流程

虽然DevOps流程几乎不会涉及到编排(orchestration)，但是DataOps流程则需要用到数据管道和分析开发的编排。

测试

与DevOps不同，DataOps会高度依赖数据屏蔽，来开展测试。因此，测试数据的管理就显得至关重要了。此外，在部署之前，DataOps通常需要在数据管道和分析开发的过程中，测试和验证数据。

工具

目前，DevOps已拥有成熟的工具生态系统，尤其体系在测试方面。而作为一种新的方法，DataOps通常需要团队从头开始构建工具，或根据其特殊目的去定制DevOps工具。

DataOps平台的演进

在数据分析的早期，ETL(提取、转换、加载)工具已经成为了管理大量导入数据的强大工具。然而，随着数据的多样性、准确性、以及体量的激增，人们对于可扩展性和实时数据分析的需求，变得更加迫切。ETL工具与云计算资源的结合，虽然加快了数据的分析速度，然而，数据访问的安全性仍然形式严峻。在此背景下，DataOps应运而生。通过采用民主化的数据访问(democratized data access)方式，所有数据需求方可以在组织数据治理策略的约束下，安全、优质地获取数据洞见。

原文标题：A Guide toDataOps: The New Age of Data Management，作者: Mir Alimanagement

【51CTO译稿，合作站点转载请注明原文译者和出处为51CTO.com】