数据已经成为很多企业和组织的宝贵资产。他们正在分析数据以深入了解市场、客户和他们自己的运营情况。他们正在使用数据来推动数字化转型计划,支持新的数据密集型服务。
而数据——大量的数据——是AI和机器学习计划的关键组成部分。
但整理、管理和分析数据是一项重大挑战。根据市场研究公司IDC的数据显示,创建、捕获、复制和使用的数据总量每年以超过20%的速度增长,预计到2027年将达到约291 ZB。
这就是为什么会有源源不断的大数据初创公司开发出尖端的技术来帮助企业访问、收集、管理、移动、转换、分析、理解、衡量、管理、维护和保护数据。
以下就是2024年引起了我们关注的10家大数据初创公司。
Ariga
联合创始人、首席执行官:Ariel Mashraki
数据库模式是数据在数据库系统中组织和结构的一种方式,包括了数据表以及定义不同数据元素之间关系的方式。
当数据更新或数据库需要支持运行在数据库上的应用的新特性和功能时,有时必须更改数据库模式,这可能是一件苦差事。
Ariga开发了一个数据库模式即代码平台,软件工程师使用该平台就可以通过代码定义和管理数据库模式,从而降低模式更改的复杂性并简化数据库管理。
Ariga的产品包括数据库模式即代码工具Atlas和用于Go编程语言的ent.go实体框架。
Ariga公司成立于2021年,总部位于以色列特拉维夫。2023年6月,Ariga宣布在A轮融资中获得1500万美元,以及此前未宣布的300万美元种子轮融资。
DataPelago
联合创始人、首席执行官:Rajan Goyal
初创公司DataPelago在今年10月走出隐身模式,推出了该公司所谓的全球首个“通用数据处理引擎”,可以应对当今数据的复杂性和数量,用于所谓的“加速计算”分析和AI工作负载。
DataPelago公司首席执行官Goyal表示,基于CPU和基本软件架构的传统数据处理系统无法应对当今数据的复杂性和数量。
他说:“数据在变化,应用在变化,最重要的是,[IT]基础设施也在变化,当三种不同的颠覆性趋势汇聚在一起时,你需要退后一步,看看未来会是什么样子,数据处理平台应该是什么样子。”
为了解决这个问题,Goyal在2021年宣布推出了DataPelago,并组建了一支“多学科团队”,由在系统架构、数据分析、云、SaaS、开源开发和其他技术领域拥有专业知识的人员组成。
DataPelago的通用数据处理引擎正在被一些客户以试点或者预览的方式使用,旨在克服当前IT系统的性能、成本和可扩展性限制。该系统是从零开始构建的,采用硬件和软件协同设计的方法,支持生成式AI和数据湖屋分析工作负载。
DataPelago总部位于美国加利福尼亚州山景城,目前已经累计从投资方Eclipse、Taiwania Capital、Qualcomm Ventures、Alter Venture Partners、Nautilus Venture Partners和First Citizens Bank旗下Silicon Valley Back那里获得了4700万美元的种子轮和A轮融资。
DeasyLabs
联合创始人、首席执行官:Reece Griffiths
AI模型的好坏取决于输入的数据。DeasyLabs表示,该公司的使命是提供数据治理,以确保大型语言模型仅运行在安全的、相关的、高质量的数据上。
这家初创公司开发了一个元数据编排平台,用于创建高质量、定制的元数据并将其嵌入到他们的AI工作流中,包括检索增强生成和代理框架。
DeasyLabs公司成立于2023年,总部位于纽约,在2023年获得了300万美元的种子资金,并得到了Y Combinator的支持,资金来自General Catalyst、RTP Global和J12等投资方。
Diliko
首席执行官:Dave Albano
Diliko公司在11月7日刚刚走出隐身模式,它开发了一个具有自动数据管理和治理功能的代理AI平台,并表示这可以降低运营复杂性和成本。
Diliko总部位于美国弗吉尼亚州雷斯顿,主要面向数据密集型医疗、金融和物流行业的中型企业。该公司表示,其服务为CIO、CFO和CDO等C级高管以及数据工程师、数据科学家和数据分析师等数据相关人员带来了好处。
基于云的Diliko平台优化了数据管理性能,无需部署和管理昂贵的基础设施。该服务使用按需数据集成、ETL(提取、转换、加载)和编排来实现复杂数据管理工作流程的自动化,并可在内部系统和外部系统之间实时同步数据。
Diliko平台还通过零信任架构、端到端加密和多因素身份验证等云原生安全功能确保数据治理和安全。
Dymium
联合创始人、首席执行官:Denzil Wessel
Dymium开发了一个数据访问管理平台,可以在“数据所在位置”提供对数据的安全访问,从而消除了将数据移动到数据仓库和数据湖以进行分析和AI任务的相关成本和复杂性。
“通过复制数据向团队提供各种格式数据的做法,每种格式都有不同的访问控制、策略和安全要求,这就导致了前所未有的复杂性,阻碍了创新并破坏了安全和治理,”Wessel说。
Dymium平台可以帮助组织以经济高效的方式管理快速增长的数据源中的数据访问要求,增强其安全态势并帮助他们遵守监管要求。
该系统结合了零信任架构、集中访问策略、实时数据转换服务、AI和机器学习,以正确的格式向正确的用户提供正确的数据。
Dymium公司成立于2022年,总部位于美国加利福尼亚州洛斯加托斯,在今年3月走出隐身模式并获得700万美元的融资。
Mind
联合创始人、首席执行官:Eran Barak
初创公司Mind开发了下一代数据丢失预防技术,并且刚刚走出隐身模式,获得来自YL Ventures的1100万美元种子资金。该公司总部位于美国西雅图。
Mind的平台结合了AI和“智能自动化”来监控数据事件,识别、检测和防止数据泄露。该系统发现并分类众多IT工作负载中的敏感数据(包括静态的、动态的和使用中的数据),覆盖了SaaS、生成式AI应用、端点、本地系统和电子邮件。
Mind AI系统的核心是由数百种定制算法和专有AI引擎组成的,用于对敏感的非结构化数据进行分类和归类,了解上下文感知业务视图以确定风险严重性,并在需要时采取自动预防和补救措施。
Mind公司是由Eran Barak在2023年共同创立的,之前他创立了Hexadite公司,后来该公司被微软收购。他和其他联合创始人之前曾在以色列军事情报局8200部门担任领导职务。
MotherDuck
联合创始人、首席执行官:Jordan Tigani
初创公司MotherDuck在2023年6月推出了无服务器的MotherDuck Cloud Analytics Platform平台首个版本,该平台结合了云和嵌入式数据库技术,无论数据位于何处,都可以轻松地对其进行分析。
MotherDuck的软件基于MotherDuck的DuckDB开源嵌入式数据库。据称,这个云系统通过将进程内数据库的速度与云的可扩展性相结合,简化了对任何规模数据的分析。
MotherDuck认为,近年来数据分析的大多数进步都是针对拥有超过1PB数据的大型企业和组织,而忽略了拥有类似规模数据量的中小型企业。
总部位于美国西雅图的MotherDuck是由Google BigQuery创始工程师Tigani在2022年共同创立的。2023年9月,该公司在B轮融资中获得了5250万美元,总融资金额达到1亿美元。
Onehouse
首席执行官:Vinoth Chandar
Onehouse公司提供了云原生、完全托管的通用数据湖屋服务,并表示,该服务旨在从任何来源提取数据,并可以支持所有查询引擎。该系统是基于Apache Hudi开源数据湖平台的。
Onehouse希望帮助企业和组织解决数据分散和孤立的问题——数据分散在本地和云端的数据存储系统、运营数据库和数据仓库系统中。
今年6月,Onehouse公司推出了产品线的新增产品LakeView,这是面向开源社区的Lakehouse可观察性工具,以及用于Lakehouse自动优化的Table Optimizer。8月,Onehouse推出了一个向量嵌入生成器,用于嵌入管道自动化,作为Onehouse管理中ELT(提取、性能和加载)云服务的一个组成部分。
Onehouse公司成立于2021年,总部位于美国加利福尼亚州门洛帕克,今年6月在由Craft Ventures领投的B轮融资中获得了3500万美元,早期投资方Addition和Greylock Partners也参与其中。
Scoop Analytics
联合创始人、首席执行官:Brad Peters
初创公司Scoop Analytics在今年6月凭借其用于自动化报告流程和开发AI驱动的商业智能演示文稿和报告软件脱颖而出。
据Scoop Analytics称,该软件使任何具有电子表格技能的人都可以从任何应用中收集数据,混合来自不同来源的数据,通过基于实时数据的幻灯片演示来创建“视觉上引人注目的数据故事”。
Peters表示,Scoop的使命是“以不需要数据团队的形式提供数据分析”,并实现真正的自助式商业智能的长期目标。
总部位于美国旧金山的Scoop Analytics公司是由Peters和其他曾在商业分析软件开发商Birst工作的人创立。该公司于6月18日正式成立,获得了来自Ridge Ventures、Industry Ventures和Engineering Capital的350万美元种子资金。
Unstructured
创始人、首席执行官:Brian Raymond
Unstructured因其用于访问、准备和转换数据(尤其是文档和图像等非结构化数据)的技术而受到关注,这些技术可用于为AI和生成式AI应用提供支持的大型语言模型。
在AI发展的浪潮中,各种组织正在努力清理和准备大量数据,尤其是文档和图像等非结构化数据。Unstructured公司表示,超过80%的企业数据都存储在文档和其他非结构化文件中。
Unstructured的平台和开发工具可以将非结构化或“自然语言”数据转换为可用于大型语言模型、矢量数据库和LangChain的格式。Unstructured的系统适用于一系列难以使用的文件类型和格式,包括HTML、PDF、CSV、PNG、PPTX等。
今年7月,总部位于美国加利福尼亚州萨克拉门托的Unstructured分别在由Bain Capital Ventures和Madrona领投的种子轮和A轮融资中获得了2500万美元资金。