译者 | 陈峻
审校 | 孙淑娟
如今,由各行各业产生和分发的数据体量,正在以惊人的速度爆发式地增长着。根据Statista的报告,截至2023年前,全球已有约120泽字节(zettabytes)的数据,而预计到2025年,这一数字将达到181泽字节。
来源:statista.com
随着数据量的继续快速增长,大家对于高效数据管理和可观察性的解决方案与工具的需求也在增加。其实,数据的实际价值在于它如何被利用。我们仅仅收集和存储数据是远远不够的,必须正确地利用和使用它们,才能获得有价值的见解。这些见解可能关于人口统计,也可能涉及到消费者行为,甚至是对未来的销售预测,为业务决策过程提供真实可信的资源。此外,通过实时的数据,企业也可以快速做出明智的决策,以适应市场,并把握瞬间即逝的商机。不过,这些都是基于优质的数据前提,而如果数据本身杂乱且已过时、那么就可能产生误导性的效果。因此,我们的重点应当放在提升数据质量上。
DataOps的本质
作为一组优秀实践和工具,DataOps旨在增强数据的管理操作,任务的协作、集成和自动化。DataOps寻求通过集成和面向过程的方法,来提高数据管理的质量、速度和协作效率,并利用类似于DevOps的自动化和敏捷软件工程的实践,来加速和简化准确数据的交付过程[1]。它可以被用来帮助企业和组织更好地管理其数据管道,减少开发与部署新的数据驱动应用所需的工作量和时间,进而提高数据的质量。
了解了DataOps的概念,下面让我们来深入研究DataOps的关键组件。通常,其关键组成部分包括:数据集成、数据治理、数据编排、数据质量管理、以及DataOps的可观察性。
数据集成
数据集成涉及到对变更的代码进行整合与测试,并及时将它们部署到生产环境中,确保数据在集成的过程中,以及在交付给适当的团队时的准确性和一致性。
数据治理
数据治理需要确保数据的收集、存储和使用,不但能够具有一贯性,而且合乎道德和法规。
数据编排
数据编排有助于管理和协调管道中的数据处理过程,指定和安排任务,以及通过处置错误,来自动化和优化流经数据管道的数据流。这对于确保数据通过数据管道的平稳运行、及其性能都是至关重要的。
数据质量管理
数据质量管理涉及到识别、纠正和防止数据中的错误或不一致,确保所使用的数据是高度可靠和准确的。
DataOps可观察性
DataOps可观察性是指监控和理解数据管理中,涉及到的各种流程和系统的能力。其首要目标是确保数据的可靠性、可信度、以及商业价值。它关注的是从监控和分析数据管道,到维护数据质量,以及通过财务和运营效率指标,去全面证明数据的商业价值。DataOps可观察性使企业和组织能够提高其数据管理流程的效率,并更好地利用其数据资产。因此,它有助于确保数据准确、可靠且易于访问,进而帮助企业和组织做出由数据驱动的决策,优化与数据相关的各类成本与支出,并从中产生更多的价值。
DataOps可观察性工具,可简化数据的管理、成本和协作流程
DataOps最具挑战性的一个方面是,集成各个数据源,并确保数据的质量、治理、编排、成本管理、以及可观察性。同时,DataOps旨在简化此类流程,并改善团队之间的协作,使企业能够做出更好的数据驱动决策,进而实现更高的性能和输出[2]。下面,我们将介绍一系列企业可以用来简化数据管理、成本和协作流程的优秀DataOps工具,以及它们在DataOps可观察性方面的能力。
数据整合工具
市场上有各种各样的DataOps工具,选择合适的工具可能是一项非常艰巨的任务。为了帮助企业做出明智的决策,我们在此编制了一份可用于管理数据驱动流程的DataOps工具列表。
1.Fivetran
Fivetran是一个非常流行且被广泛采用的数据集成平台。它简化了将各种数据源连接到集中式数据仓库的过程[3]。这使得用户或企业能够在同一处,去轻松地分析和可视化他们的数据,而无需从多个不同来源,手动提取、转换和加载(ETL)数据。
Fivetran为范围广泛的数据源提供了一组预构建的连接器。其中包括:流行的数据库、云应用程序、SaaS应用程序、以及flat文件(一种包含没有相对关系结构记录的文件)。这些连接器能够自动执行数据的提取过程,确保数据始终是最新且准确的。而一旦数据进入中央数据仓库,Fivetran就会执行模式发现和数据验证,根据数据源的结构,自动在数据仓库中创建表和列,从而非常容易地建立和维护数据管道,而无需人工编写自定义的代码。
同时,Fivetran还提供重复数据的删除、增量数据的更新、以及实时数据的复制等功能。这些功能都有助于确保数据的完整、最新和准确。
来源:fivetran.com
2.Talend Data Fabric
Talend Data Fabric解决方案旨在帮助企业和组织确保他们拥有健康的数据,以巩固控制、降低风险、以及推动数据的价值。该平台结合了数据集成、完整性和治理,以提供企业和组织在决策过程中,可信赖的数据。同时,Talend可以帮助企业建立客户忠诚度,提高运营效率,并实现IT基础架构的现代化。
Talend独特的数据集成方法使得企业和组织可以轻松地将多个数据源的数据整合到一起,并为他们的所有业务决策提供支持。也就是说,它几乎可以将任何数据类型,从任何数据源集成到任何数据目的地(即,本地或云端)。该平台非常灵活,允许企业和组织一次性构建数据管道,并能在任何地方运行,而无需被供应商或平台锁定。同时,作为一体化的解决方案,它还能够将数据集成、数据质量、以及数据共享,集中到一个易用的平台上。
Talend Data Fabric的数据集成功能,主要包括前文提及的数据集成、管道设计器、数据库存、数据准备、变更数据捕获、以及数据拼接。这些工具既使得数据的集成、发现、搜索、以及共享等环节更易于管理,又能够让用户快速地准备数据,集成数据,可视化数据,保持数据为最新,以及安全地转移数据。
来源:http://talend.com/
3.StreamSets
StreamSets是一个功能强大的数据集成平台。它能够让企业控制和管理,从各种批处理和流媒体源,到现代化分析平台中的数据流。您可以使用其协作式可视化管道,去设计在边缘、本地或云端部署和扩展的数据流,通过映射和监控它们,以实现端到端可见化[4]。同时,该平台还允许用户通过数据SLA,来获得数据的高可用性、以及保障数据的隐私。
StreamSets使企业和组织能够通过其可视化的管道设计、测试和部署功能,消除对于专业编程技能的需求,从而通过直观的图形用户界面,快速启动项目。由于StreamSets平台可以自动处理各种意外的变化,因此避免了因脆弱的管道所导致的数据丢失。此外,该平台还包含一个带有指标、警报、以及能够向下“深挖”的实时数据地图,以便企业轻松、高效地集成数据。
来源:http://streamsets.com/
4.K2View
作为企业级DataOps工具,K2View通过提供一个用于实时数据集成的数据结构平台,方便了企业和组织提供个性化的体验[6]。K2View的企业级数据集成工具可集成任何类型的数据源,并通过诸如:批量ETL、反向ETL、数据流、数据虚拟化、基于日志的CDC、基于消息的集成、以及SQL和API等各种方法,便于各个消费方(consumer)轻松地访问数据。
K2View可以从各种来源和系统中提取数据,通过实时的洞察来增强数据,将其转换成特定的微数据库,并通过单独地压缩和加密微数据库,来确保其性能、可扩展性、以及安全性。同时,它也能够即时地运用数据屏蔽、转换、以及编排工具,使已授权的消费方可以在遵守数据隐私和安全规则的前提下,访问任何格式的数据。
来源:https://www.k2view.com/
5.Alteryx
作为一个非常强大的数据集成平台,Alteryx允许用户轻松地访问、操作、分析和输出数据。该平台使用的是拖放式界面(即:低代码/无代码界面),包含了80多种用于数据混合、预测分析、以及数据可视化的工具和连接器[7]。它既可以被按需单次使用,又可以被作为“工作流”重复使用。而Alteryx构建工作流的方式,也可以被作为流程文档的一种形式,以便用户查看、协作、支持和增强流程。同时,该平台可以将数据读取和写入至文件、数据库和API,以便用于预测分析和地理空间分析。
目前,Alteryx已作为更快、更高效地自动化数据集成过程,被用于各个行业和功能领域。一些常见用例包括:在电子表格中组合和操作数据、补充性的SQL开发、各种API、(混合)云访问、数据科学、地理空间分析、以及创建报告和仪表板。
值得注意的是,Alteryx经常被数据分析师用作ETL工具,通过让业务用户在不依赖IT的情况下,自由地访问、操作和分析数据,进而为业务用户赋能。
来源:http://alteryx.com/
数据质量测试和监控工具
1.Monte Carlo
Monte Carlo是业界领先的企业数据监控和可观察性平台。它提供了一个端到端的解决方案,可用于跨数据仓库、数据湖、ETL和商业智能平台的数据问题监控和警告。通常,它使用机器学习(ML)和人工智能(AI),来了解数据,并主动识别与数据相关的问题,评估其影响,进而通知相关人员。由于该平台能够自动、及时识别问题的根本原因,因此相关团队可以更快地联调并解决问题。同时,它也提供自动化的、字段级别的解析(field-levellineage)、数据发现、以及集中式数据编录。这些都能够让数据分析团队更好地了解其数据资产的可访问性、位置、健康状况、以及所有权。此外,该平台在设计时,还考虑到了安全性,可以根据用户提供的技术栈进行相应的扩展,并通过包含无代码或低代码功能函数,方便使用现有的数据栈,来轻松实施。
来源:http://montecarlodata.com/
2.Databand
Databand是IBM最近收购的一个数据监控和可观察性平台。它可以协助组织在业务受到影响之前,检测并解决数据的相关问题。该平台提供了从源数据开始的端到端式数据管道视图,以便企业和组织能够及早地发现问题,并将平均检测时间(MTTD)和平均解决时间(MTTR)从数天和数周,减少到数分钟。
Databand的一个关键特性是,它能够自动从Airflow、Spark、Databricks、Redshift、以及Snowflake等现代数据技术栈中,收集元数据。此类元数据可被用于构建常见的数据管道行为的历史基线,以便组织能够了解从源头到目的地的每个数据流。
同时,Databand也提供了事件管理、端到端的解析、数据可靠性监控、数据质量指标、异常检测、以及DataOps警报和路由功能。据此,企业和组织可以提高数据的可靠性和质量,并能可视化数据事件是如何影响数据栈的上、下游组件的。也就是说,Databand的组合功能为各种数据事件提供了统一的解决方案,以便数据工程师能够专注于构建现代化的数据栈,而不是疲于修补。
3.Datafold
Datafold是一个数据可靠性平台,专注于对数据质量的主动管理,帮助企业预防数据灾难。它具有在组织的生产力受到影响之前,检测、评估和调查数据质量问题的独特能力。也就是说,该平台能够通过实时监控,来快速识别问题,并防止数据灾难的发生。
来源:http://datafold.com/
Datafold能够利用AI和ML,提供具有实时洞察力的分析,以便数据工程师能够从大量数据中,做出高质量的预测。总结起来,Datafold的主要功能包括:
- 针对ETL的一键式回归测试
- 跨所有管道和BI报告的数据流可见性
- SQL查询转换、数据发现、以及多数据源集成
此外,Datafold还提供了简单、直观且具有强大导航功能的用户界面(UI)。该平台允许用户深入地探索表格和数据资产之间的关系。当然,相对于其灵活的数据质量监控与可视化能力,它能够支持的数据集成则相对有限。
4.Query Surge
Query Surge是一个非常强大且多功能的工具,常被用于自动化数据质量测试和监控,尤其适用于大数据、数据仓库、BI报告、以及各种企业级的应用。它专为无缝集成而设计,允许用户在数据流动时,对其进行持续测试和验证。
Query Surge提供了创建和运行测试的能力,而无需通过智能查询向导,去编写SQL语句。这方便了列、行和表级别的比较、以及自动列匹配。同时,用户也可以创建自定义的测试,去使用可重用的代码“片段”进行模块化、设置阈值、检查数据类型、以及执行其他大量的高级检查与验证。此外,Query Surge还具有强大的调度功能,允许用户在指定的日期和时间立即运行测试。而且,由于支持200多种供应商和技术栈,因此它可以横跨各种平台,针对:大数据湖、数据仓库、传统数据库、NoSQL文档存储、BI报告、flat文件、以及JSON文件等开展测试。
来源:https://www.querysurge.com/
Query Surge的一项主要优势在于,它能够与DataOps管道中的数据集成/ETL解决方案、构建/配置解决方案、QA/测试管理解决方案等相集成。该工具还包含了一个数据分析仪表板,便于用户实时地监控测试的执行进度,深入研究数据,检查结果,并查看已执行测试的统计数据。同时,它也能够以“开箱即用”的方式,与大量服务、及其他具有API访问权限的方案相集成。
Query Surge可被用于本地和云端,支持AES 256位加密、LDAP/LDAPS、TLS、HTTPS/SSL、自动超时、以及其他安全功能。简而言之,Query Surge是一个非常强大且全面的自动化数据监控和测试解决方案,能够让企业和组织快速提高数据质量,并降低交付管道中的数据相关问题与风险。
5.Right Data
Right Data公司的RDT是一个功能强大的数据测试和监控平台。它通过为数据测试、协调和验证提供易用的界面,帮助企业和组织提高数据的可靠性和信任度。它允许用户快速识别与数据相关的一致性、质量和完整性等问题。同时,它也提供了一整套分析、设计、构建、执行、自动化协调和验证场景的有效方法。由于它几乎不需要任何编程,因此有效地节省了数据工程师的时间和资源。
来源:http://getrightdata.com/RDt-product
RDT的主要特点:
- 分析数据库的能力:它通过提供一套完整的应用,来分析源数据集和目标数据集。其顶级的Query Builder和Data Profiling功能,可帮助用户在不同场景中,事先了解和分析数据。
- 支持广泛的数据源:RDT广泛地支持诸如:ODBC或JDBC、flat文件、云技术、SAP、大数据、BI报告、以及各种其他来源。这使得企业和组织能够轻松地连接到现有的数据源,并与之协作。
- 数据核对:RDT具有“比较行计数”等功能,可让用户去比较源数据集中的行数和目标数据集中的行数,找出行数不匹配的表。也就是说,它提供了“行级别的数据比较”功能,可以比较源与目标之间的数据集,以识别出彼此不匹配的行。
- 数据验证:RDT通过提供一个用户友好的界面,来创建验证场景,使用户能够为目标数据集建立一到多个验证规则,进而识别异常,分析和报告结果。
- 管理和CMS:RDT拥有一个可配置的管理控制台,并提供了创建和管理用户、角色、以及将角色映射到特定用户的能力。当然,管理员也可以创建、管理和测试用于查询连接的配置文件。同时,该工具也提供了一个Content Management Studio(CMS),可以将查询、场景和连接配置文件,从一个Right Data实例导出到另一个实例。此功能对于在同一实例中,从一个文件夹复制到另一个文件夹,以及切换查询的连接配置文件来说,非常实用。
DataOps的可观察性和增强式FinOps
1.Chaos Genius
Chaos Genius是一个强大的DataOps可观察性工具。它使用ML和AI来筛选数据,并提供精确的成本预测和增强式指标,可用于监控和分析数据和业务的状况。构建该工具的主要目的之一是:通过提供功能强大的、一流的DataOps可观察性工具,协助监控和分析数据,降低支出,改进业务指标,从而为企业创造价值。
来源:http://chaosgenius.io/
下图展示了,ChaosGenius目前提供的一项名为“Snowflake Observability”的主要服务。
来源:http://chaosgenius.io/
Chaos Genius(Snowflake Observability)的主要特点包括:
- 成本优化和监控:Chaos Genius旨在帮助企业和组织优化和监控Snowflake云数据平台的成本,其中包括:寻找可以削减成本的地方,以及就如何削减成本提出建议。
- 增强的查询性能:Chaos Genius可以分析查询模式,以识别低效的查询,并给出提高性能的智能建议,从而实现更快、更高效地检索数据,并提高数据仓库的整体性能。
- 减少支出:Chaos Genius使企业能够更好地提高系统效率,并将总支出减少约10%-30%。
- 定价模型:Chaos Genius提供了一种三层定价模型。第一层是完全免费的,而另外两层是针对希望监控到更多指标的公司而设计的。这使得各种规模和预算的企业都可以使用它。
2.Unravel
作为一个DataOps可观察性平台,Unravel可为企业和组织提供整体数据栈的全面视图,并帮助他们优化性能,自动化故障排除,以及管理和监控其整个数据管道的成本。该平台能够与诸如:Azure、Amazon EMR、GCP、以及Cloudera等不同的云服务提供商、甚至是本地环境协作,为企业提供管理其数据管道的灵活性。
来源:http://unraveldata.com/
Unravel利用ML和AI对端到端的数据管道进行建模,使企业能够详细地了解数据如何流经其系统。这使得企业与组织能够识别出瓶颈,优化其资源分配,并提高其数据管道的整体性能。
该平台的数据模型可以帮助企业探索、关联和分析整个环境中的数据,深入了解应用程序、服务与资源的使用方式,及其有效性,进而让企业能够快速地识别到潜在问题,并采取措施予以解决。不仅如此,Unravel还具有自动化的排查问题功能,可以帮助企业快速地找到问题的原因,为企业节省大量开支,并让他们的数据管道更加可靠和高效。
小结
随着各个企业的数据量以前所未有的速度持续增长,它们对于高效的数据管理和可观察性解决方案的需求,也日趋强烈。显然,仅靠收集和存储数据并不能解决根本问题,企业真正需要的是通过数据获取的洞察力和价值。而这往往只有在数据质量高、最新且易于访问的情况下才能实现。这也正是DataOps的用武之地。它可以提供一套强大的最佳实践和工具,来改进协作、集成和自动化,使企业能够简化其数据管道,降低成本与工作量。希望您能够从上述介绍的数据管理和可观察性工具中,有选择地进行采用,最大限度地减少与数据相关的费用,进而从数据中获取最大价值。
参考
[1]. A. Dyck, R. Penners and H. Lichter, "Towards Definitions for Release Engineering and DevOps," 2015 IEEE/ACM 3rd International Workshop on Release Engineering, Florence, Italy, 2015, pp. 3-3, doi: 10.1109/RELENG.2015.10.
[2] Doyle, Kerry. “DataOps vs. MLOps: Streamline your data operations.” TechTarget, 15 February 2022, https://www.techtarget.com/searchitoperations/tip/DataOps-vs-MLOps-Streamline-your-data-operations. Accessed 12 January 2023.
[3] Danise, Amy, and Bruce Rogers. “Fivetran Innovates Data Integration Tools Market.” Forbes, 11 January 2022, https://www.forbes.com/sites/brucerogers/2022/01/11/fivetran-innovates-data-integration-tools-market/. Accessed 13 January 2023.
[4] Basu, Kirit. “What Is StreamSets? Data Engineering for DataOps.” StreamSets, 5 October 2015, https://streamsets.com/blog/what-is-streamsets/. Accessed 13 January 2023.
[5] Chand, Swatee. “What is Talend | Introduction to Talend ETL Tool.” Edureka, 29 November 2021, https://www.edureka.co/blog/what-is-talend-tool/#WhatIsTalend. Accessed 12 January 2023.
[6] “Delivering real-time data products to accelerate digital business [white paper].” K2View, https://www.k2view.com/hubfs/K2View%20Overview%202022.pdf. Accessed 13 January 2023.
[7] “Complete introduction to Alteryx.” GeeksforGeeks, 3 June 2022, https://www.geeksforgeeks.org/complete-introduction-to-alteryx/. Accessed 13 January 2023.
译者介绍
陈峻 (Julian Chen),51CTO社区编辑,具有十多年的IT项目实施经验,善于对内外部资源与风险实施管控,专注传播网络与信息安全知识与经验。
原文标题:22 Best DataOps Tools To Optimize Your Data Management and Observability In 2023,作者:Pramit Marattha