Databricks决定开源其Delta Lake数据湖-数据湖构建 data lake formation

为了消除 Databricks 竞争对手的疑虑，Databricks 周二表示，它正在开源所有 Delta Lake API，作为 Delta Lake 2.0 版本的一部分。该公司还宣布将把 Delta Lake 的所有增强功能贡献给 Linux 基金会。

Cloudera、Dremio、谷歌（Big Lake）、微软、甲骨文、SAP、AWS Snowflake、HPE（Ezmeral）和 Vertica 等 Databricks的竞争对手对该公司提出了批评，质疑 Delta Lake 是开源的还是专有的，因此抢走了一定份额的潜在客户。

Ventana Research 研究总监马特·阿斯莱特（Matt Aslett）说：“新公告应该为用户提供连续性和清晰度，并有助于消除关于 Delta Lake 是专有还是开源的混淆（部分由竞争对手引发）。”

Constellation Research 首席分析师 Doug Henschen 表示，随着这些公告的发布，Databricks 正在消除客户的担忧和竞争性批评。

“在竞争性交易中，Snowflake 等竞争对手会向潜在客户指出 Delta Lake 的某些方面是专有的，”Henschen 说，并补充说 Databricks 客户可以相信他们的数据在一个开放平台上，而不是锁定在 Delta Lake 中。

Databricks 将 Delta Lake 称为数据库湖，一种同时提供存储和分析功能的数据架构，这与以原生格式存储数据的数据湖和存储结构化数据（通常以 SQL 格式）的数据仓库的概念形成对比。

商业开源市场竞争加剧

随着数据湖市场上的商业开源项目越来越多，Databricks 的 Delta Lake 会发现自己面临新的竞争，包括为超大型分析表提供高性能查询的 Apache Iceberg。

“还有一些开源项目最近开始商业化，例如用于 Apache Hudi 的 OneHouse 以及 Starburst 和 Dremio 都推出了他们的 Apache Iceberg 产品，”Amalgam Insights 首席分析师 Hyoun Park 说。“随着这些产品的推出，Delta Lake 面临着来自其他开源 Lakehouse 格式的压力，因为 Lakehouse 市场开始分裂并且技术人员有多种选择，因此在功能上变得更加强大，”Park 补充道。

Ventana 的 Aslett 说，该领域的许多其他参与者都专注于 Apache Iceberg 作为 Delta Lake 表的替代品。与以行和列存储数据的传统表相比，Delta 表可以使用 ACID（原子性、一致性、隔离性和持久性）事务来存储元数据，并帮助加快数据导入。

4 月，Google 宣布支持 Big Lake 和 Iceberg，本月早些时候，Snowflake 宣布在私人预览版中支持 Apache Iceberg 表。Henschen 说，与 Databricks 的开源战略一样，Iceberg 的公告旨在吸引潜在客户，这些客户可能担心向一家供应商承诺，以及未来可能无法访问自己的数据。

Gartner 前研究副总裁 Sanjeev Mohan 表示，面对新的竞争，Databricks 转向开源 Delta Lake 是一个很好的举措。

Delta Lake 2.0 提供更快的查询性能

该公司表示，Databricks 的 Delta Lake 2.0 将于今年晚些时候全面推出，预计将为数据分析提供更快的查询性能。

Databricks 周二还发布了第二版 MLflow——一个用于管理端到端机器学习生命周期 (MLOps) 的开源平台。该公司表示，MLflow 2.0 附带 MLflow Pipelines，它为数据科学家提供基于他们正在构建的模型类型的预定义、生产就绪模板，使他们能够加速模型开发，而无需生产工程师的干预。

据分析师称，MLflow 2.0 将成为数据科学家更成熟的选择，因为机器学习生产仍然是一个具有挑战性的过程，并且将算法模型转换为安全管理资源上的生产级应用程序代码仍然很困难。

“这个领域有许多供应商解决方案，包括 Amazon Sagemaker、Azure 机器学习、谷歌云 AI、Datarobot、Domino Data、Dataiku 和 Iguazio。但与超大规模和 Databricks 的统一方法相比，Databricks 是一个中立的供应商数据和模型管理是 MLOps 供应商的一个差异化因素，这些供应商专注于模型操作化的编码和生产挑战，”Amalgam 的 Park 说。

Henschen 表示，发布 MLflow 2.0 的举措简化了将流式传输和流式分析引入生产数据管道的途径，并补充说，许多公司在 MLOps 方面遇到了困难，即使在成功创建机器学习模型后也会失败。