2022年以来的几个数据管理趋势在2023年继续发展,包括向云数据湖和数据湖屋架构的转变。宏观经济状况——包括通货膨胀——继续给试图最大化其潜在数据价值的组织带来压力。尽管经济面临挑战,一些供应商也能够筹集到资金,尽管2023年的融资额与2021年和2022年的数字相比相形见绌。
GenAI主导数据
就像在IT和其他行业一样,GenAI成为数据管理的主导趋势也就不足为奇了。
2023年,几乎每个主要的数据库和数据平台供应商都有某种形式的GenAI新闻,一些供应商包括GenAI作为助手的工具,帮助用户执行不同的任务。长期以来,管理数据平台和编写不同类型的数据查询一直是一项复杂的工作,GenAI简化了这一工作。
在众多集成了某种形式的AI助手的供应商中,Dremio在6月份推出了其文本到SQL AI支持的工具,使用户能够更轻松地生成SQL查询。今年8月,Couchbase发布了Capella IQ,这是一款帮助开发人员编写数据库应用程序代码的生成式AI工具。同样在8月份,SnapLogic推出了SnapGPT AI工具,帮助用户使用自然语言构建数据管道。Alation在10月份宣布了其Allie AI工具,以帮助提高其数据目录和治理工具套件的生产率。
除了集成AI支持的助手外,数据库供应商还添加了新的功能,以帮助启用大型语言模型(LLM)。LLM通常通过提供矢量数据库类型的功能,充当检索增强生成(RAG)的知识库,这些功能通常涉及支持将向量嵌入为一种数据类型,并提供向量搜索功能。许多数据库供应商在2023年增加了对矢量搜索的支持,包括Rockset、Neo4j、Oracle数据库23c、MongoDB和SingleStore。
数据仓库势头继续增强
越来越流行的数据仓库——用作数据湖的云对象存储——拥有类似于数据仓库的数据分析用途。
数据库公司在2020年率先提出了数据仓库的基本概念,自那以来,其他公司也纷纷进入市场。数据库在2023年通过多次更新推动了数据湖的努力,其中最引人注目的是6月份发布的Delta Lake 3.0。Delta Lake是与Apache Iceberg和Apache Hudi并驾齐驱的三大开源数据湖表格式之一。
为了帮助限制三种开源数据湖表格式的潜在混淆和锁定风险,OneTable开源项目宣布了一个跨Hudi、Delta Lake和Iceberg的可互操作的元数据层。Apache Hudi供应商One House在谷歌和微软的支持下创办了OneTable。
甲骨文在7月份推出了MySQL HeatWave服务,从而加入了湖屋行动。MySQL HeatWave是一项将操作和分析数据库功能结合为一个融合数据库的服务,这是另一个总体上变得强劲的趋势。
数据治理和可见性仍然是重中之重
无论是AI、数据运营还是分析,数据治理的话题都变得越来越重要。
能够了解数据从何而来,如何使其可用和使用,对于安全性、保密性、准确性和可靠性都很重要。在2023年期间,多家供应商扩展和增强了数据治理功能,以帮助管理数据。
出于加强数据治理的需要,Informatica在6月份收购了初创公司Privitar,以帮助提高这家云数据平台供应商的能力。ColLibra对其数据质量、谱系和发现能力进行了改进。
去年11月,StarBurst使用自动化数据治理更新了Galaxy云服务,部分由GenAI提供支持。
具备可见性是能够有效管理和治理数据的一部分。随着GenAI和矢量数据库在2023年的兴起,观察和管理用于AI的数据的能力在未来变得越来越重要。11月,Monte Carlo推出了专门针对矢量数据库的新的数据可见性功能。
投资融资放缓
衡量数据管理行业健康状况的众多指标之一是新兴供应商的融资活动速度。
尽管融资活动的数量少于过去两年,但在整个2023年,几家数据平台供应商获得了几轮重大融资,以推动扩张和创新。
今年年初,InfluxDB时间序列数据库的创建者InfluxData在2月份的一轮融资中获得了8100万美元,该公司在4月份发布了InfluxDB 3.0,并为私有云和内部部署环境提供了包括InfluxDB在内的新部署选项。
One House在2月份筹集了2500万美元,通过其OneTable努力促进数据仓库的互操作性。Databricks在9月份筹集了5亿美元,并计划将这笔资金用于专注于GenAI的研发,以及地理增长。Databricks推出了新的工具,用于构建由客户自己的数据支持的GenAI应用程序,例如矢量搜索和RAG管道。
同样在9月份,Denodo从私募股权公司TPG Growth获得了3.36亿美元的股权投资。Denodo最近添加了新的数据治理功能,包括数据沿袭,并推出了一个免费层来接触新用户。
在2024年及以后,数据管理应该仍然是数据分析、运营和AI努力的基础。GenAI进一步整合到数据平台中,包括数据仓库的努力,对于供应商和用户来说,都有理由提高效率,以更少的努力完成更多的工作。