世界涌现了各种数据库及分析模式:数据湖、数据仓库、内存分析和嵌入式分析。但开源编排平台开发商Kestra的首席执行官兼联合创始人Emmanuel Darras表示,到2025年,分析的标准将是数据湖屋(lakehouse)。
Darras说:“到2025年,由于成本节约和灵活性,预计超过一半的分析工作负载将在lakehouse架构上运行。”“目前,公司正在从云数据仓库转向lakehouse,这不仅是为了节省资金,也是为了简化数据访问模式,减少对重复数据存储的需求。大型组织报告称节省了50%以上,这对那些有巨大数据处理需求的组织来说是一个重大胜利。
数据湖屋的一大驱动力是开放数据格式的标准化。Confluent技术战略组首席技术专家Adam Bellemare预测,这一趋势将在2025年继续发展。
Bellemare说:“明年,我们将看到开放数据格式的广泛标准化,如Apache Iceberg、Delta Lake和Apache Hudi。”“这将是由对互操作性的更大需求推动的,企业希望跨不同平台、合作伙伴和供应商无缝组合数据。随着企业优先考虑访问及时、高质量的数据,开放数据格式将不再是可选的,而是企业成功的必要条件。那些不接受这些开放标准的人有失去竞争优势的风险,而采用这些标准的人将能够提供高质量的产品和实时、跨平台的数据洞察。”
lakehouse最大的两个支持者是Snowflake和Rancher。但在2025年,人们将厌倦Snowflake和Databricks的战争,并寻求联合IT来发展数据架构,Dremio的技术布道者、新罕布什尔州南部和大峡谷大学的数据和分析教授Andrew Madson说。
Madson说:“中央IT团队将继续将职责下放给业务部门,创建更多的联合运营模式。”“与此同时,Snowflake和Databricks等主要供应商的单一架构将集成旨在提高成本效益和性能的其他工具,创建平衡创新和实用性的混合生态系统。”
多年来,数据建模一直处于相对模糊的状态。Confluent的宣传和开发人员体验工程总监Adi Polak表示,到2025年,这种做法将迎来辉煌时刻。
Polak说:“数据建模长期以来一直是DBA(数据库管理员)的领域,但随着Apache Iceberg等开放表格式的日益普及,数据建模是更多工程师需要掌握的技能。”“对于应用程序开发,工程师越来越多地负责创建可重用的数据产品,支持实时和批处理工作负载,同时预测下游消费模式。“为了有效地构建这些数据产品,工程师必须了解如何使用数据,并在早期设计适合消费的正确结构或模型。这就是为什么数据建模将是工程师在未来一年掌握的一项基本技能。
2025年有一个话题是无法避免的:人工智能。Altair分析和物联网高级副总裁Christian Buckner表示,人工智能的影响将无处不在,包括数据分析堆栈。
Buckner说:“如今,许多商业领袖都很难知道该向他们的数据提出什么问题,或者在哪里找到答案。”“人工智能代理正在通过自动提供见解和建议来改变这一现状,而无需任何人询问。这种自动化水平对于帮助组织解锁其数据中的更深层次的理解和联系,并使其能够为业务优势做出更具战略性的决策至关重要。企业建立护栏来控制人工智能驱动的建议并保持对结果的信任非常重要。”
当你说“分析”时,它常常让人联想到有人启动桌面BI工具来处理仓库中的一部分数据,但如今时代变了。Sisense首席执行官Ariel Katz表示,2025年将导致传统BI的消亡,在每个应用程序中,传统BI将被API-first和GenAI集成分析所取代。
Katz表示:“到2025年,随着API-first架构和GenAI将实时分析无缝嵌入每个应用程序,传统的BI工具将变得过时。”“数据洞察将直接流入CRM、生产力平台和客户工具,使各级员工能够立即做出数据驱动的决策,而不需要技术专长。接受这一转变的公司将释放前所未有的生产力和客户体验,使静态仪表板和孤立的系统黯然失色。”
Amplitude的首席产品官Francois Ajenstat预测,到2025年,大数据运动将开启一个新的篇章,迎来一个被称为小数据的"亲戚"。
Ajenstat说:“过去几年数据量有所增加,但2025年将把重点从‘大数据’转向‘小数据’。”“我们已经看到这种思维方式的转变,大型语言模型会让位于小型语言模型。组织意识到,他们不需要携带所有数据来解决问题或完成一项计划,他们需要携带正确的数据。大量的数据,通常被称为‘数据沼泽’,使得提取有意义的见解变得更加困难。通过专注于更有针对性、更高质量的数据或‘数据池’,组织可以确保数据的信任和准确性。这种向更小、更相关的数据的转变将有助于加快分析时间,让更多的人使用数据,并从数据投资中获得更大的投资回报率。”
拥有高质量的数据总是很难。但DataPelago的首席执行官兼联合创始人Rajan Goyal表示,到2025年,拥有高质量的数据将成为企业的当务之急。
Goyal说:“我们看到越来越多的报道称,LLM提供商正在努力应对模型放缓,人工智能的扩展规律越来越受到质疑。”“随着这一趋势的持续,明年人们将普遍认识到,开发、训练和微调更有效的人工智能模型的关键不再是更多的数据,而是更好的数据。特别是,与模型预期用例相一致的高质量上下文数据将是关键。除了模型开发人员之外,这一趋势将使拥有大部分数据的最终客户承担更大的责任,使他们的数据管理架构现代化,以满足当今的人工智能需求,从而有效地微调模型并推动检索增强生成(RAG)工作负载。”
数据孤岛就像蘑菇:它们在没有任何人为输入的情况下自然出现。但Hammerspace全球营销高级副总裁Molly Presley表示,到2025年,企业若想取得成功,就需要应对数据孤岛的增长。
Presley写道:“到2025年,打破数据孤岛将成为数据工程师和人工智能架构师的一个关键架构问题。聚合和统一跨组织的不同数据集的能力对于推动高级分析、人工智能和机器学习计划至关重要。随着数据源的数量和多样性的不断增长,克服这些孤岛对于实现现代人工智能系统所需的整体见解和决策至关重要。”
管理用户对数据的访问有时感觉就像是同时处理所有地方的所有事情。Arcitecta首席执行官Jason Lohrey预测,到2025年,团队将学习如何更有效地利用流数据等工具来提高自己的生产力,而不是对抗工人和数据的蔓延。
Lohrey说:“远程工作和地理分布团队的兴起改变了企业的运营方式。”“实时数据流允许组织记录事件并在全球范围内共享实时馈送,使员工能够在不需要亲自在场的情况下就连续的数据流进行协作。随着越来越多的公司采用促进无缝广播和数据分发的工具,这一趋势可能会在2025年加速。通过在分布式员工中实现实时协作,企业可以降低差旅成本,提高效率,并做出更快、更明智的决策。数据流技术的全球影响力将扩大,使组织能够利用更广泛的人才库,并创建更动态、更灵活的运营结构。”