说真的,现在的 AI 圈子有点浮躁。
只要是个做大模型的,开口闭口就是 RAG(检索增强生成)。确实,为了解决 LLM 那个像金鱼一样的短时记忆和一本正经胡说八道(幻觉)的毛病,RAG 几乎成了标准配置。

但在过去这一年里,有多少公司的 RAG 方案是真的“能用”的?
如果你在做金融研报分析、法律合同审查,或者哪怕只是想让 AI 读懂几十页的内部手册,你一定被那个叫向量检索(Vector Search)的东西折磨过。
一、 相似度,可能是 RAG 最大的谎言
现在最主流的套路是这样的:把文档切成 512 或 1024 个 token 的小碎块(Chunking),扔进 Embedding 模型,存在向量数据库里。等用户提问时,去库里找最“像”的那几个块。
听起来很科学,对吧?
但实际落地时,你会发现这简直是个巨大的坑。语义相似,并不代表逻辑相关。
举个最简单的例子:你问 AI “去年第四季度亏损的原因是什么?”,向量检索可能会给你抓出一堆带“亏损”、“原因”关键字的段落,但大概率会把“第三季度”或者“前年”的数据也带出来,因为它们的向量距离太近了。
更别提那种需要跨章节总结的复杂问题了。一旦文档长一点、结构复杂一点,传统的向量 RAG 就像是在碎纸机里翻答案,拼凑出来的东西往往似是而非。
这时候,VectifyAI/PageIndex 突然在 GitHub 上冲到了 1.1 万颗星,其实是替我们这群被“向量”折磨疯了的人喊出了那句心里话:别再迷信向量了,我们需要的是像人一样的推理检索。

二、 PageIndex 到底在革谁的命?
PageIndex 提出来的概念叫 “Vectorless, Reasoning-based RAG”(无向量、基于推理的 RAG)。
它不搞向量库那一套。它的核心逻辑非常“反直觉”,但也极其符合人类直觉。
1. 像人一样翻书,而不是查字典
你想想你自己在读一份 100 页的研报时是怎么做的?
你肯定不会闭着眼随便翻开一页就开始读。你会先看目录(Table of Contents),找到相关的章节,然后再去细读那个章节下的小节。
PageIndex 就是这么干的。它会先把文档构建成一个分层树状索引(Hierarchical Tree Index)。它不是在找“相似的文字”,而是在“推理”:我要找的信息,应该在哪个层级的哪个位置?
2. 彻底告别“暴力切片”
传统的 Chunking 是要把文档剪碎的,这会强行割裂上下文。而 PageIndex 保留了文档的自然结构。这就好比你找人借书,别人直接给你一整章,而不是撕碎了扔给你几片纸。这种上下文完整性,是它准确率能刷到 98.7% 的根本原因。
3. 极强的可解释性(可溯源)
这是最让我兴奋的点。向量检索给你的结果是一个“黑盒”,它给不出理由。
但 PageIndex 的检索过程是Agentic(代理式)的。它能清晰地告诉你:我从根目录出发,推断答案在第三章,然后进入第二小节,最后在第 45 页找到了这段话。
这种确定性**,对于金融和法律行业来说,就是命根子。
三、 98.7% 的准确率,意味着什么?
在 FinanceBench(一个极度硬核的金融问答测试集)上,PageIndex 刷出了 98.7% 的准确率。
作为对比,市面上很多顶尖的向量 RAG 方案在面对这类复杂长文档时,准确率能过 70% 就算烧高香了。
这意味着,以前 AI 只能帮你写写周报、润色邮件;现在,它真的开始具备处理专业长文档、提供严谨决策支持的可能性了。
四、 一些大实话:它适合你吗?
吹了这么多,咱们也得说点实在的。
PageIndex 是万能药吗?
不一定。如果你只是做一个简单的 FAQ 问答,或者处理的都是零散的短句,那向量检索依然是最轻量、最划算的方案。
但如果你正面临以下几种情况,我建议你今晚就去把这个项目的代码拉下来:
-
• 文档巨长: 几百页的 PDF,上下文窗口根本塞不下。 -
• 结构严谨: 研报、财报、法律文书、技术手册。 -
• 容错率极低: 需要精准定位到页码,不能容忍 LLM 瞎编。
而且它的上手门槛真的很低,整个项目是 Python 写的,支持本地运行,也提供了 MCP(Model Context Protocol) 接入方式,甚至还有个 Vision-based(基于视觉)的版本,不用 OCR 也能读图。
写在最后
AI 这一行变化太快了。去年我们还在惊叹于 Embedding 的神奇,今年大家就开始反思向量的局限。
PageIndex 的火爆说明了一个趋势:RAG 正在从“简单的语义搜索”转向“深度的逻辑推理”。
如果你不想在 AI 落地的泥潭里继续挣扎,是时候抬起头来看看这种“无向量、重推理”的新思路了。


