OpenAI对收购没有透露很细节的东西,只是强调了会将 RockSet 融合到检索基础设施中,将数据转化成可以操作的智能(actionable intelligenc)。 具体 OpenAI 公开稿可以见公开申明(https://openai.com/index/openai-acquires-rockset/)
今天聊聊,给不了解的同学扫盲一下,另外说一下我的看法。
RockSet 是一家什么公司
RockSet 原来主要是一家主打云上实时数仓的公司,2018年由一群 meta 印度工程师创立。
主要的核心是在云上基于 rocksdb构建了一个全索引的,云原生的,实时数据同步的数仓。
图片
这个核心优势就是任意维度查询比较快,代价是资源各方面占比是比较高的。类似产品国内的阿里云 数据库团队的 ADB 也是类似技术,后面的大数据团队又做了一个 PG 版本的 hologres。
阿里最早做这个是给 Maxcomputer 做加速用的,典型场景有电商里面筛选过滤会用到,但总体而言,纯实时的场景还是比较少,所以市场空间不是特别大。
大模型时代带来, RockSet 又加上了向量检索的能力,所以现在主推的是混合检索(文本,向量混合检索),这个就和 ES,百度的 VDB 类似了。
应该说 Rockset 的技术还是很有特点的,但并不是独一无二的。
OpenAI 为什么要收购
OpenAI 对收购的原因讲得比较少,,只是强调了会将 RockSet 融合到检索基础设施中。个人猜测有两个方面的原因:
首先应用于最新的大模型,Maybe GPT 5.0?
传统大模型训练完了之后数据是不会更新的,但这个并不符合客户的诉求,不管是什么业务都是要结合最新的数据才有价值的。
所以我猜测最新的大模型本身会将 RAG 架构融入到大模型本身去。会有专门的模块去实时采集和更新互联网数据,这样用户体验到的一直是最新的数据,大模型的智能水平会上一个台阶。
其次给 2B 客户提供更完善的方案
OpenAI在 23 年年末的开发者大会上,展示了Assistants API,这个 API 主要的能力就是可以调用外部的能力,包括调用强大的解释器(Code Interpreter),还可以调用外部函数(Functions Calling), 而且还可以外挂自己的知识库(Retrieval)。
但是这个 API 的限制是比较大的,包括调用能力比较弱,价格比较高,缺乏一系列安全等高级能力。基本上用户可以很快的基于 Assistant API 构建一个 demo,但是真的用于生产是比较难的。所以业界有一系列的向量数据库的方案。
未来 OpenAI 要真的服务复杂场景,给 2B 企业提供更完善的方案,一个强大的可以混合召回引擎是需要的。所以猜测有可能会把Rockset 做成服务,然后结合大模型开放给 2B 的客户。
好了,基于公开信息,能分析为啥 OpenAI 要收购 Rockset 大概就是这些。