泼天富贵，OpenAI收购数据仓库公司，为什么？

charles

泼天富贵，OpenAI收购数据仓库公司，为什么？

01

泼天的富贵，

谁不喜欢呢。

OpenAI买哪家公司，

哪家公司就富贵。

比如，OpenAI收购“亲爱的数据”。

这种事，一般人也就只敢想想，

而谭老师我，不一样。

不仅可以白日做梦，

还可把假设写在自己文章的开头。

先插一条八卦，

Rockset富贵之后，

就在官网大声说，

现有（Current）客户就都不服务了。

天啊撸，原来美国也是：

上岸第一剑，先斩意中人。

不是说客户是上帝吗？

只要给的钱够多。

上帝也可以不要了。

看来信仰，

在OpenAI面前也崩塌了。

泼天富贵，OpenAI收购数据仓库公司，为什么？

说回正经，

新闻快讯里细节很多，

大家自己去看，

老规矩，谭老师主要负责开玩笑，

和聊深入的。

熟悉的读者都知道，

谭老师我的调性

是“一个为什么不够，再问一个问什么，还问一个为什么？”

第一个，

OpenAI为什么要买数据仓库公司？

第二个，

这类公司很多，为什么是Rockset？

第三个，

Rockset做对了哪些事情？

回答这三个问题之前，

我来向大家展示一下，

相关公司有多少。

泼天富贵，OpenAI收购数据仓库公司，为什么？

数据来源于Rockset官网。

万一，

有公司跳出来说，

我也是Rockset竞品。

可能Rockset不把它当竞品。

总之，竞品很多。

放心，OpenAI买的公司技术肯定不差。

而且买Rockset，

不是为了投资，

就是为了买技术。

下一步，

把技术整合进现有的体系。

所以Rockset的技术一定要足够好，

才能配得上人家的GPT。

02

先第一个问题：

为什么要买数据仓库公司呢？

我们先了解一件事情，

数据是AI大模型的石油，

有车多加油，这没毛病吧。

所以，也想给大模型多加数据，

从基础模型开始，

有且只两个方式，

能够给模型加油，

哦，不是，加数据：

第一，微调型训练。

第二，RAG。

RAG是啥等下解释。

既然只有两种，那么

人人都能看出来，

这两种方式非常重要，

不能凭空生出第三种来。

对普通人来说，

问答（ChatBot）能满足大部分需求，

给大模型加油（数据）,

谁的需求最迫切呢？

答案是，有很多数据的企业。

没数据，你也迫切不起来。

有数据，才能有作为。

这样，我们的聊天就进入企业级服务的讨论的范畴里了。

用脚指头都能想到，

想让中石油石化，高盛花旗，

把数据拿出来给大模型公司，

不可能，

这绝对不可能。

全部是秘密，

不是秘密也是机密，

开什么玩笑。

这时候，

要么去企业的服务器上微调模型，

数据在企业自己的服务器上，

哪里也不去。

要么就用RAG。

RAG的英文名特别高深，

检索增强生成，

好家伙，连用三个动词，

不觉得累么。

不如让我讲个简单的。

你有一个非常聪明的朋友，

可以回答任何问题。

但是，有时朋友回答可能不准确或过时，

因为只会用以前学的书本上的知识。

那好办，

让你朋友在回答问题之前，

先翻查资料。

这样，不就更准确，

更可靠了吗。

你看，讲解科技原理很简单，

看看表，不到一分钟。

我的对其工作原理的理解是，

RAG这件事的本质就是找东西。

找东西，很简单，

有点东西，

先存下来，再找。

怎么找是怎么存决定的。

这样看来，存和找可以看成一件事。

好，这点，我们按下不表。

放眼全世界，

找东西有哪几种方式？

我说的是，企业级服务里面的找东西，

个人找信息不是上谷歌，

就是上百度。

而在企业里，可以用三种方式找东西。

第一“找”，

在数据仓库（OLAP）找东西。

数据仓库（OLAP）是一种专门用于在线数据分析的数据库。

在线这件事，后面讲。

数据库有套标准化的东西，

搞AI的人特别羡慕，

那就是SQL。

不过没关系，

搞数据的人都很羡慕AI的宣传能力。

搞数据库的著名专家一年到头没有人采访，

搞AI的“名人”天天被人围着采访。

这就扯平了。

接着聊。

本质上，数据库是一种精确运算，

统计从去年可口可乐的销售额，且排序。

无论你查询多少次，

同样的查询，

同样的答案。

答案是精确的，不变的。

表总是那个表。

而其他就很难保证精确性了（近似或者模糊）。

这个等下再说。

第二“找”，

用Elasticsearch这种搜索组件找东西。

既然出场了，

就给Elasticsearch个比较商（高）务（端）的介绍。

一款开源的搜索和分析引擎，

旨在为各种规模的数据提供快速，

灵活和可扩展的搜索功能。

它被广泛用于各种应用场景。

要我说，

它特别擅长找文本信息，

也就是语义信息（semantic）。

这里有关于谭婧老师写的文章五万篇，

找500篇出来。

哗啦一下都给你找出来。

还给你排序。

谭老师我AI基础软件，AI芯片，供应链上的运筹学等等都写。

此查询将返回所有包含短语“AI芯片”或其同义词的文章。

这个，就是我说的模糊查找。

第三“找”，

在向量堆里找东西。

还搜索谭婧老师，这次向量距离是重点，

距离近的都给我搜出来，

当谭老师我变成一个向量信息，

是啥就已经不重要了，

不需要知道这是一位科技科普KOL。

主打一个找向量距离近的。

这种，本质是一个近似搜索。

这三种“找东西”的方式，

都很好。

以OpenAI的调性，

一定会说：

“经费有限才做选择，有钱全都要”。

巧了，Rockset，一石三鸟，成交。

等一下，“先谈个价钱”。

泼天富贵，OpenAI收购数据仓库公司，为什么？

03

再回答第二个问题：

全世界这类产品有很多，

为什么是Rockset？

这个时候，就要夸夸Rockset了。

反正怎么夸都不会翻车，

因为OpenAI买了，

就是最大的商誉背书。

夸它的空间非常大。

你可以说什么，

前大厂员工创业，

毕竟，公司的六名高管中有四人都曾任职脸书（Facebook）。

还可以说，

创始人名校背景。

毕竟，CEO是威斯康星大学麦迪逊分校计算机专业背景，

数据库老兵。

另外，Rockset的CTO兼联创，

还有一个“殊荣”，

是大名鼎鼎的RocksDB的作者。

泼天富贵，OpenAI收购数据仓库公司，为什么？

话不多说，Rockset好在哪？

“实时”这点，

拿出来先说，

大模型的服务是实时的，

要是Spark在那里跑一小时才出来，

开什么玩笑。

机器人呆若木鸡一小时。

去RAG里面拿信息，

等一小时，

再感谢用户的耐心。

这极不合理。

RAG是个在线服务，

这一整套都是在线服务。

再说，

这里暗藏了一个重点：

找东西这件事用什么组件？

前面说了

有三种组件可以为企业级服务找东西，

我们来复（重）习（复）一下：

一，数据仓库（OLAP），

二，Elasticsearch，

三，向量数据库。

04

第三个问题，

Rockset做对了哪些事情？

裉节在于，

在数据仓库（OLAP）上面扩展向量检索和语义检索并不困难，

但是，反之不行。

但是之后往往是重点。

这从另一个角度说明，

数据仓库（OLAP）的技术栈，

比单纯做向量检索，语义检索的技术栈更深，

想做好并不容易。

重要的是，这个组件是企业数字化转型最核心的点。

为什么这么说？

数字化有三件事重要，

有数，存数，用数。

得用一套扩展性把企业所有数字化的需求都满足。

巧了，这个东西用数据仓库（OLAP）能很好的完成。

更巧的是，

Rockset也是这么做的。

不仅是这么做的，

而且是数据仓库（OLAP）众多产品中，

对文本检索和向量检索支持做得最好。

这下，

能看出Rockset技术的厉害之处了吧。

毕竟，

上OpenAI的购物清单，

也不简单。

Rockset的技术路线正是从数据仓库（OLAP）技术栈，

扩展到了向量和语义搜索。

很重要的一点，

这个顺序不能错。

并且，只有向量检索和文本检索也不行。

你看，OpenAI很可能也是这么认为。

再抄一遍答案：

企业级RAG的核心,

是支持搜索召回能力的数据仓库（OLAP）。

且数据仓库（OLAP）具备更好的扩展性，

这点从70年代有BI的时候开始到现在，

一直被证明。

为什么扩展性为什么如此的重要？

数据仓库（OLAP）能够通过一套体系,

把企业所有的需求都满足。

数据仓库上层的负载变化多样，快速增长。

文本检索这浪，做得好还不够，

向量检索这波又来了，

每招都要能接招，

跟上迭代。

再问下去，

做好扩展性的根本是什么？

一是数据开放性，

二是可组装性（高端说法“架构松耦合”），

且在保证前两者的基础上，

和性能上面做很好的平衡。

也就是说，把前两者做好，

不能牺牲性能。

比如，这个车可以换引擎，

但这车不能比换不了引擎的车。

油耗多十倍。

无论是OpenAI还是另外谁，

带着需求来了，都要能被组装到基础的数据架构中去。

对OpenAI来说，

To C赚钱，To B也赚要钱，

ToB就必须在数据架构上发力，

也就是夯实数据平台基础。

这类数据平台产品也很需要积累，

比如Snowflake和Databricks就积累得足够深，足够好，

好消息是，

美国的软件生态特别好，

只要你觉得值得，

那就花钱买家好公司来。

不卖的话，

那就价格再高一点。

这件事上，说个判断，

OpenAI要好好赚B端（企业级）客户的大钱了。

为什么这么说？

这个阶段，在B端（企业级）生意里边，

企业级的RAG最核心。

如果OpenAI想落地这个东西，

它需要有一个平台或者引擎能把这一套承接起来。

既然没有选向量数据库，

OpenAI的判断就不是单纯向量数据库，

而是一个具备很好搜索能力的数据仓库（OLAP），

加上向量数据库的能力。

（有些做向量数据库的朋友，

应该不会喜欢这个观点，

不过我坚持。）

（完）

前沿技术新闻资讯

APEER：基于自动提示工程的LLM信息检索增强技术

2025-1-24 0:39:27

前沿技术新闻资讯

Prompting已死？DSPy：自动优化LLM流水线

2025-1-24 2:44:35

0 条回复 A文章作者 M管理员

更换删除

暂无讨论，说说你的看法吧

❯

购物车

优惠劵

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

查看所有

我的优惠劵

_￥_优惠劵

使用时效：无法使用

使用时效：
之前

使用时效：永久有效

优惠劵ID：
×

限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]

所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×

删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部