根据我们在 2022 年到目前为止的情况,Datanami 有信心在今年余下的时间里做出这五个预测。
数据可观察性继续运行
今年上半年对于数据可观察性来说意义重大,这让客户可以更好地了解数据流的情况并制定相关指标。随着数据对于决策制定变得越来越重要,该数据的健康和可用性也变得越来越重要。
我们看到许多数据可观察性初创公司获得了数亿美元的风险投资,其中包括Cribl(价值 1.5 亿美元的 D 轮融资);蒙特卡洛(D 系列价值 1.35 亿美元);Coralogix(D 系列价值 1.42 亿美元);和别的。其他制造新闻的公司包括推出元数据指标的Bigeye;StreamSets,被Software AG以 5.8 亿美元收购;IBM上个月收购了可观察性初创公司 Databand 。
这种势头将在 2022 年下半年继续,因为越来越多的数据可观察性初创公司走出困境,现有的初创公司寻求巩固其在这个新兴市场中的地位。
实时数据弹出
实时数据多年来一直处于次要地位,服务于一些小众用例,但实际上并未在常规企业中得到广泛使用。但是,由于过去几年的新冠疫情和相关的商业计划重组,实时数据进入主流科技圈的条件现在已经成熟。
“我认为流媒体终于发生了,” Databricks首席执行官 Ali Ghodsi 在最近的 Data + AI 峰会上表示,并指出该公司基于云的数据平台上的流媒体工作负载增长了 2.5 倍。“他们有越来越多的 AI 用例需要实时。”
内存数据库和内存数据网格也准备从实时复兴中受益(如果是这样的话)。RocksDB是一个快速分析数据库,它增强了 Kafka 等基于事件的系统,现在有一个名为 Speedb 的替代品。SingleStore在一个单一的关系框架中结合了 OLTP 和 OLAP 功能,在上个月的一轮融资中达到了 13 亿美元的估值。
还有StarRocks ,它最近获得了基于 Apache Doris的快速新 OLAP 数据库的资助;Imply于 5 月完成了 1 亿美元的 D 轮融资,以继续其基于 Apache Druid 的实时分析业务;DataStax将 Apache Pulsar 添加到其 Apache Cassandra 工具包中,筹集了 1.15 亿美元用于推动实时应用程序开发。Datanami预计这种对实时数据分析的关注将继续下去。
监管增长
GDPR生效已经四年了,让大数据用户受到关注,并加速了数据治理作为负责任数据计划的必要组成部分的兴起。在美国,监管数据访问的任务已经落到各州身上,加利福尼亚州在 CCPA 方面处于领先地位,它在许多方面模仿了 GPDR。但更多的州可能会效仿,这使美国公司的数据隐私等式变得复杂。
但 GDPR 和 CCPA 只是法规的开始。我们也处于第三方 cookie 的消亡之中,这使得公司更难跟踪用户的在线行为。谷歌决定将其平台上第三方 cookie 的终止时间推迟到 2023 年 1 月 1 日,这给了营销人员一些额外的时间来适应,但来自 cookie 的信息将难以复制。
除了数据法规之外,我们还处于关于使用人工智能的新法规的风口浪尖。欧盟于 2021 年推出了人工智能法案,专家预测它可能会在 2022 年底或 2023 年初成为法律。
数据表格式之战
一场经典的技术大战正在形成新的数据表格式,这将决定数据如何存储在大数据系统中,谁可以访问它,以及用户可以用它做什么。
最近几个月, Apache Iceberg作为数据表格式的潜在新标准获得了热潮。云数据仓库巨头Snowflake和AWS今年年初出来支持 Iceberg,后者提供交易和其他数据控制,并从 Netflix 和 Apple 的工作中脱颖而出。前 Hadoop 分销商Cloudera在 6 月份也支持了 Iceberg。
但是 Databricks 的人们提供了 Delta Lake 表格式的替代方案,它提供了与 Iceberg 类似的功能。Apache Spark 支持者最初以专有方式开发了 Delta Lake 表格式,这导致指责 Databricks 为客户设置锁定。但在 6 月的数据 + AI 峰会上,该公司宣布将把整个格式都开源,从而让任何人都可以使用它。
在洗牌中迷失的是Apache Hudi,它还提供了数据的一致性,因为它位于大数据存储库中并且可以被各种计算引擎访问。Onehouse是一家由 Apache Hudi 的创建者支持的企业,今年早些时候推出了一个基于 Hudi 的 Lakehouse 平台。
大数据生态系统喜欢竞争,因此在 2022 年剩余时间里观察这些格式的演变和竞争将会很有趣。
语言 AI 继续令人惊叹
人工智能的前沿逐月变得越来越锋利,而今天,人工智能的矛头是大语言模型,它越来越好。事实上,大型语言模型已经变得如此出色,以至于 6 月份的一位Google工程师声称该公司的 LaMDA 会话系统已经变得有感知力。
人工智能还没有感知能力,但这并不意味着它们对企业没有用处。提醒我们,Salesforce有一个名为 CodeGen 的大型语言模型 (LLM) 项目,该项目旨在理解源代码,甚至以不同的编程语言生成自己的代码。
上个月,Meta(Facebook 的母公司)推出了一个可以翻译 200 种语言的大型语言模型。我们还看到了通过 BigScience 大型开放科学开放访问多语言语言模型或BLOOM等项目使 AI 民主化的努力。