组织需要仔细审视其整个数据堆栈,并确定所有解决方案是否都提供功能、效率和准确性,或者是否有空间整合为单一的可定制系统。
现代数据堆栈已崩溃。从全球范围来看,平均每个组织使用130种不同的软件应用程序。由于有如此多的技术可用,数据管理很快就会变得复杂。内部构建数据管理工具可能成本高昂且耗时,并使组织偏离其最初的使命。外包通常更容易,但随着组织规模的扩大,其数据也在不断扩大。企业领导者突然发现自己拥有大量软件解决方案,解决了数据管理的不同方面。但并非所有解决方案都能无缝协作。
数据管理专业人士是时候开始质疑现状,并寻求不同的数据管理方法了。当今的组织需要一种可以轻松表示任何数据类型的通用数据结构,以及一套统一、一致的工具,以高效准确地与这些数据进行交互。
数据管理简史
自20世纪60年代以来,数据管理一直是企业必不可少的一部分,尽管当时它是一项简单得多的工作。最初的数据管理方法包括在大型机上运行的本地解决方案,在接下来的40年里,只有少数几家主要参与者占据了市场,如Oracle、IBM 和 Microsoft。
到本世纪初,云端数据管理逐渐流行起来,同时也暴露出本地数据堆栈的缺点,包括维护成本上升、能够访问数据的用户数量太少以及处理能力不足。在2000年代和2010年代,组织经历了数据源的多样化和数量快速增长,以及对数据进行更多管理、分析和组织的需求。
进入现代数据堆栈:如今,企业通常拥有多个基于云的数据库和管理工具来容纳不断扩大的数据集。无论他们需要扩展、提高速度还是致力于提高数据支持的洞察力的质量,组织都可以访问数百种解决方案来解决其想要的任何问题。随着企业寻求更多解决方案来添加到其技术堆栈,2023年在数据即服务工具上的支出超过100 亿美元。
为什么现代数据堆栈不再起作用
如今,世界正在进入数据管理的新时代。大型技术堆栈已不再有效——为了提高工作效率和数据质量而不断增加堆栈的成本越来越高,也越来越复杂。
现代数据堆栈过于复杂,需要使用多种工具和平台。从编目到治理再到访问控制,每个季度都会有几种“新”工具进入市场,这些工具都是重新发明轮子的工具。此外,堆栈中添加的每个新工具都会增加总拥有成本,包括更多的许可费用以及雇用或重新培训数据工程师以使用每个新解决方案。
堆栈中的每个新添加都旨在使一切模块化,但这导致了一个脱节的系统,进一步使数据孤岛化。结果,数据科学家、分析师和产品所有者之间的合作受到抑制。他们通常不在同一个平台上工作,团队之间也有不同的流程,交接缺乏背景,沟通急转直下。如今,庞大的数据工程师和专业人员组织正在监督企业组织中的数据计划,但这些计划需要数月时间,业务用户和决策者并没有看到所承诺的影响或突破性见解的速度。
此外,还有安全和治理问题。随着设备的增多,团队和孤岛之间的数据传输也越来越多。几乎不可能知道谁有权访问不同的数据集,以及是否应该访问。
过去几年,人工智能 (AI)、机器学习 (ML) 以及生成式人工智能和大型语言模型 (LLM) 的进步不断涌现,这些模型依赖于大量所谓的非结构化数据集,例如文本、文件和图像。遗憾的是,传统的数据架构并非为处理LLM、AI和ML而设计的,因此需要投资于专业的多模式数据管理解决方案,而这些解决方案不仅仅局限于简单的表格和表格数据库。
表格无法提供正确构建非传统数据所需的灵活性,如图像和ML嵌入。然而,一个意想不到的结果是,组织纷纷采用定制解决方案——一种用于图像,另一种用于矢量,这样的例子不胜枚举。他们会为狭隘的性能基准和优化而沾沾自喜,但却忽视了组织中还有另一个数据孤岛,而增加的复杂性现在才是真正的阻碍。
随着时间的推移,更多的解决方案被添加到堆栈中,分别解决特定问题,进一步孤立数据,需要更多管理监督,以及额外的治理和合规执行。除了构建和维护内部基础设施的巨额成本外,招聘和留住人才本身也是一项挑战。
数据库供应商是时候重新想象数据库系统的构建方式,并努力按照战略意图进行构建了。
解决方案:统一的数据模型
修复现代数据堆栈的解决方案有两个方面:采用灵活、统一的数据模型来应对当今架构的挑战,以及在单一解决方案中统一所有数据、计算和代码平台的单一平台。
可以围绕多维数组构建一个可行的统一数据模型,这可以为组织提供一个单一系统来容纳所有数据,并只需一次即可集成首选分类、资源配置、治理等,而无需考虑用例。
其次,需要统一的数据平台。例如,为了避免重建用于编码和存储数据的单独基础设施,组织有机会使用相同的系统进行编码和存储,这也将重复使用相同的治理和合规模型。最终,这种合并将带来成本效益和更高的性能,因为工程师不必再为将相同的数据复制和预处理到多个系统中而陷入困境。
在2024年及以后,组织需要认真审视其整个数据堆栈,并确定所有这些解决方案是否都提供了功能、效率和准确性,或者是否有空间整合成一个可定制的单一系统。然而,这个问题不应该落在终端用户的肩上,而应该落在有能力为客户创建统一解决方案的软件供应商的肩上。
对于希望削减成本、提高生产力和简化运营的组织来说,数据基础设施不必太复杂,而且现有的数据管理解决方案可以让工作变得更轻松。