出品 | 51CTO技术栈(微信号:blog51cto)
编辑 | 言征
本周二,全球知名数据分析软件供应商Databricks发布了一份声明称,Databricks同意收购由Apache Iceberg的创建者领导的存储平台提供商Tabular。据华尔街日报透露,这笔交易的规模将超过10亿美元。值得注意的是,Snowflake和Confluent也参与了这场竞购。
此举被业界专家视为“提高数据湖中的数据互操作性”的行动。Databricks首席执行官Ghodsi 表示,Tabular 拥有数百名客户,它将与 Databricks 合作研究如何处理该产品。
1.Databricks支持Iceberg:OLAP和OLTP两种开源表格式终于走到了一起
Tabular 成立于 2021 年,已筹集超过 3000 万美元的资金,投资者包括 Altimeter Capital、Andreessen Horowitz 和 Zetta Venture Partners。
Tabular的创始人Ryan Blue和Daniel Weeks于2017年在Netflix开始开发Iceberg,并在2018年将其捐赠给Apache软件基金会,大约在同一时间,Databricks正在开发Delta Lake,这是一种可用于ACID事务或OLTP处理的开源数据表格式。相比之下,Apache Iceberg主要用于OLAP查询,因为它在并发写入方面存在挑战。
2022年6月,Databricks将其Delta Lake 2.0版本中的所有Delta Lake API开源,并表示将把Delta Lake的所有增强功能贡献给Linux基金会。
在开源Delta Lake之前,Cloudera、Dremio、Google(Big Lake)、Microsoft、Oracle、SAP、AWS Snowflake、HPE(Ezmeral)和Vertica等竞争对手曾批评该公司,对Delta Lake是否是开源或专有表示怀疑,从而夺走了部分潜在客户。
通过收购Tabular,Databricks表示将支持数据湖中的两种主要开源表格式,并扩展对其UniForm Tables的支持。
该公司在声明中表示:“Databricks打算与Delta Lake和Iceberg社区紧密合作,为数据湖带来格式兼容性;在短期内,通过Delta Lake UniForm内部实现,在长期内,通过朝着单一、开放和共同的互操作性标准发展来实现。”
UniForm(通用格式)是2023年6月发布的一种新表格式,它提供Delta Lake、Iceberg和Hudi之间的互操作性,并支持Iceberg的RESTful目录接口。
2.Snowflake和Iceberg表、Databricks和Delta Live表的对比
分析师也将Tabular的收购视为Databricks支持更强大互操作性的手段。
“我们之前也见过,公司通常会收购重要开源项目背后的人才,以此在项目的开源开发者社区中获得强大的声音,”Omdia的首席分析师Bradley Shimmin说。
“Tabular的创始人加入Databricks可能会提升Delta Lake和Iceberg标准之间的兼容性,这将使Databricks在支持严重依赖Snowflake平台外部数据的客户方面优于Snowflake,”Shimmin解释道。
然而,这位首席分析师指出,此次收购不太可能阻碍Snowflake使用Iceberg,因为Blue和Weeks很久以前就将该项目开源并捐赠给了Apache软件基金会。
Constellation Research的首席分析师也认为,Apache Iceberg已经超越了所有其他标准,而Databricks为创建表格式互操作性而涉足的举措将进一步推动它成为主导的表标准。
此外,分析师还指出,这场竞争不仅仅是在两种开放的表格式之间,还包括Snowflake和Databricks之间的较量。
“这笔交易的时机显然是为了抢占Snowflake峰会的部分风头,并试图通过暗示其对Iceberg标准和Delta Lake的未来将产生巨大影响,在开放性信息方面超越其竞争对手,”Henschen说。
Snowflake本周也展示了其Polaris Catalog,并表示将在接下来的90天内将数据目录开源。
Polaris Catalog是基于Iceberg构建的数据目录,旨在满足企业对于访问具有数据治理能力且支持可互操作查询引擎的厂商中立产品的需求。
据分析师称,Polaris Catalog的发布与Databricks的Unity Catalog类似,是Snowflake为吸引数据目录用户远离竞争对手Databricks,同时增强自身产品吸引力而采用的一种策略。
Amalgam Insights的首席分析师也支持Henschen的观点,并表示这两家数据湖仓提供商都在努力证明自己更适合支持跨多种数据格式和类型的企业数据环境。
“Databricks通过此次收购获得了优势,因为它表明它可以支持Iceberg,这可以说是支持最广泛的表格式,”Park解释道,并补充说,虽然Databricks历来对其自主开发的项目是良好的开源贡献者,但Iceberg的贡献者社区现在比Tabular大得多,拥有来自许多大型厂商的承诺。
然而,Henschen指出,Iceberg有太多感兴趣的参与方,任何一家公司都无法单独主导它,尽管Tabular的收购可能会让Databricks在Iceberg领域占据优势。
3.Databricks与Snowflake之间的收购军备赛
Databricks最近一直在收购公司,今年早些时候的三月,Databricks收购了波士顿的Lilac AI,以帮助企业探索和使用非结构化数据来构建基于生成式AI的应用。
在那之前,Databricks在2023年6月左右以13亿美元的价格收购了LLM(大型语言模型)和模型训练软件提供商MosaicML,以加强其基于生成式AI的产品。
在收购Lilac AI和MosaicML之前,该公司去年5月以未披露的金额收购了以AI为中心的数据治理平台提供商Okera。
这笔收购预计将提升Databricks在训练和管理大型语言模型(如其专有开源Dolly 2.0 LLM)方面的数据治理能力。
Snowflake同样激进,其收购特点在于,不仅用于加强其生成式AI产品,还用来加强其数据管理能力的公司。
其最近的收购形式是收购了一家名为TruEra的可观测性平台提供商的资产——这是一家也专注于提供机器学习和LLM生命周期管理能力的初创公司。
去年5月,这家基于云的数据仓库公司以未披露的金额收购了位于加州山景城的初创公司Neeva,以将其基于生成式AI的搜索功能添加到其Data Cloud平台上。
2023年2月,Snowflake收购了LeapYear以增强其“data clean room”的能力。
LeapYear的收购仅发生在Snowflake同意收购基于人工智能的时间序列预测平台提供商Myst AI的一个月之后,使该公司在三年内收购了七家公司。