就像其他领域一样,2020年颠覆了数据世界。当COVID关闭企业并派遣员工在家工作时,企业必须迅速适应“新常态”。
随着组织转移到远程工作,云成为绝对必要。数据治理和安全性成为重中之重,每个人都从不同的位置和系统访问数据。现在,历史模型已经变得毫无意义,因此智慧的AI变得越来越有吸引力。简而言之,组织意识到他们需要快速进行更改。数据投资增加,组织寻求升级其系统并创建完美的数据堆栈。
有了2020年的后视镜,我们现在正期待着新的一年,并希望更好的一年。2021年将为数据世界带来什么?数据基础架构将如何发展以跟上所有最新的创新和变更?
今年,我们将看到几个新的数据趋势:新数据角色和数据质量框架的出现,现代数据堆栈和现代元数据解决方案的兴起以及数据湖和仓库的融合。
1.数据湖和仓库正在融合
在过去的十年中,数据架构师围绕两个关键单元设计了数据操作:
- 数据湖:便宜的存储空间,可以存储大量的原始数据甚至是非结构化数据。数据湖架构通常非常适合临时探索和数据科学用例。
- 数据仓库:传统上,数据仓库具有优化的计算和处理速度。这对于报表和商业智能很有帮助,使仓库成为分析团队的首选系统。
如今,许多公司仍然使用这两种系统-所有数据的数据湖,以及用于分析和报告用例的专用数据仓库。
虽然还没有到此,但随着数据湖和仓库都增加了更多功能,我们开始看到两个生态系统融合在一起。
像Snowflake这样的数据仓库已经将存储和计算成本分开了,从而大大降低了将所有数据存储在数据仓库中的成本。更进一步,一些数据仓库参与者已经开始增加对半结构化数据的支持。
另一方面,诸如Databricks之类的数据湖参与者已经开始朝着“数据湖舍”的概念迈进,他们最近宣布支持SQL分析和ACID事务。
了解更多:
- Data Lakehouses:一种新兴的系统设计,将数据仓库中的数据结构和管理功能与数据湖的低成本存储相结合。
- 伟大的数据辩论:a16z播客的很酷的一集,其中包含有关数据堆栈中出现的不同技术和体系结构的发人深省的注释。
2.“现代数据栈”成为主流
从2020年开始,“现代数据堆栈”一词在数据世界中无处不在。它指的是用于处理大量数据的新型最佳现代数据体系结构。
强大的云平台是现代数据堆栈的关键支柱之一。最初以云数据仓库为中心,现在也开始包括云数据湖和相关的数据湖引擎。
如今,现代数据堆栈为数据工作流的每个部分提供了一套工具:
- 数据提取:例如Fivetran,Stitch,Hovodata
- 数据仓库:例如雪花,BigQuery
- 数据湖:例如亚马逊S3
- 数据湖处理:例如Presto,Dremio,Databricks,Starburst
- 数据转换:例如dbt,Matillion
- 元数据管理:例如亚特兰
- BI工具:例如外观
了解更多:
现代数据基础架构的新兴体系结构:基于对20多个从业人员的访谈,深入,深入地了解了哪些技术在现代数据堆栈中取胜。
2020年现代数据堆栈大会:Fivetran的第一次现代数据堆栈大会的资源,有关最新的创新,工具和最佳实践。
《现代数据堆栈新闻》:每两周发布一次的新闻通讯,其中包含有关现代数据堆栈的博客,指南和播客。
3.元数据3.0:元数据管理重生
随着现代数据堆栈的成熟,公司已开展了雄心勃勃的项目来升级其数据基础架构并理清基本数据需求(即,提取数据,包装云迁移项目以及设置新的BI工具)。这些虽然释放了很多潜力,但也造成了混乱。
诸如“此列名称实际上意味着什么?”之类的上下文问题。和“为什么仪表板上的销售数字又出错了?”杀死那些以惊人速度前进的团队的敏捷性。
尽管这些不是新问题,但我们正处于新的颠覆性解决方案的风口浪尖。随着现代数据平台围绕五个主要参与者(AWS,Azure,Google Cloud Platform,Snowflake和Databricks)汇聚,并且元数据本身正在成为大数据,因此,将智能和自动化带入元数据空间具有巨大的潜力。
在接下来的24到36个月内,我们将看到为现代数据栈构建的一个或多个现代元数据管理平台的兴起,该平台可解决数据发现,数据分类,数据沿袭和可观察性的问题。
了解更多:
Data Catalog 3.0:我的文章介绍元数据解决方案的过去和未来,以及为什么我们要在为现代数据堆栈创建现代元数据方面取得巨大飞跃。
4.出现了新角色:分析工程师和数据平台负责人
2020年,两个角色的兴起比以往任何时候都更为主流。
数据平台负责人
组织越来越意识到需要有一个负责开发数据平台的中央团队,以帮助组织的其他成员更好地开展工作。当然,这个团队需要一个领导者。
过去,这是由更传统的角色(如数据仓库专家或数据架构师)来处理的。现在,拥有数据领导者变得很普遍,他可以领导整个组织的数据计划。这些人的头衔范围很广,例如“数据平台负责人”或“数据平台主管”。
数据平台负责人通常负责监督公司数据堆栈的现代化(或从头开始,以供初创企业使用)。这包括设置云数据湖和仓库,实施数据治理框架,选择BI工具等等。
这个新角色伴随着一个重要的新KPI:最终用户采用率。这是指领导者具有使组织中的人员和团队在日常工作流程中采用数据(和数据平台)的能力。这是一个可喜的变化,因为它决定了决定投资哪些数据产品的人们与最终使用该产品的人们的动机。
分析工程师
在过去的十年中,与我交谈的每个分析师都感到一个主要的挫败感:依靠数据工程师进行生产化和建立数据管道。
强大的基于SQL的管道构建工具(如dbt和Dataform)的兴起使这种情况变得更好。通过赋予分析人员超能力,他们将整个数据转换过程交给了数据分析人员。
结果就是“分析工程师”一词的兴起,该术语描述了以前的分析师,他们现在拥有从摄取和转换到最终将可用数据集提供给其余业务的整个数据栈。
了解更多:
什么是分析工程师?dbt的克莱尔·卡罗尔(Claire Carroll)的一篇文章,介绍了为什么以及如何支持新的分析工程角色。
5.数据质量框架正在上升
在过去的二十年里,数据质量是一个没有太多创新的空间。但是,它最近取得了长足的进步,并且整个数据堆栈都集成了数据质量的不同方面。
数据质量分析
数据概要分析是检查数据以了解其内容和结构,检查其质量并确定将来如何使用的过程。
在数据资产的整个生命周期中,概要分析可能会发生多次,从浅层评估到深入评估。它包括计算缺失值,最小值和最大值,中位数和众数,频率分布以及其他有助于用户了解基础数据质量的关键统计指标。
尽管数据质量概要分析通常是数据堆栈中的独立产品,但是公司越来越多地将其作为功能集成到现代数据目录中,从而使最终用户能够理解和信任他们的数据。
业务驱动的数据质量规则
数据质量不仅仅是关于数据的统计理解。根据业务环境,还取决于数据是否值得信赖。
例如,您的销售数字通常每周增长不应超过10%。100%的销售激增应提醒合适的团队成员并停止数据管道运行,而不是将其传递给CEO使用的仪表板!
对智能警报的需求已导致组织将业务团队带入编写数据质量检查的过程。
数据团队仍然没有一种很好的方式与业务部门合作进行数据质量检查,但是我希望这个领域在未来的几年中会带来很多创新。将来,我们将看到更智能的解决方案,它们可以根据数据趋势自动生成业务驱动的数据质量规则。
数据管道中的数据质量测试
数据质量变得普遍的第三种方式是将其写入数据管道本身。这借鉴了软件工程界“单元测试”的原理。
多年来,软件工程已包含单元测试框架。它们会自动测试每个单独的代码单元,以确保它们可以使用。管道模拟单元测试框架中的数据质量测试可为数据工程带来相同的信心和速度。
这有助于团队在上游数据更改影响组织的工作流和报告之前发现其数据质量问题。
了解更多:
- 亚马逊Deequ:Deequ是在亚马逊内部构建的,是用于数据质量分析的有前途的开源框架。
- 寄予厚望:这正在成为一个流行的开源社区,用于在数据管道内进行数据质量测试。
- Netflix关于扩展数据质量的演示:对于任何开始从事数据质量之旅的数据领导者来说,这都是一个有趣的阅读。