RAG 已死，上下文工程当立

朋友们好，今天给大家带来最新的 Latent Space 的一期播客的内容，这期内容非常有价值，跟当下最火的概念，上下文工程，息息相关。同时内容里也提到了 RAG，Memory 等这些非常核心的要素。

他们采访的对象是 Chroma 的创始人，Jeff Huber, 来分享一些他的观点。

原视频地址：

https://www.youtube.com/watch?v=pIbIZ_Bxl_g

另外，这里介绍一下 Chroma。做过 AI 应用开发，特别是 RAG的同学应该不是很陌生，Chroma 是一个开源的向量检索数据库，提供 AI 应用所需要的向量检索+关键词全文检索+正则+元数据过滤的一体化方案。可以本地嵌入式运行，也可连到托管的 Chroma 云端上。

所以，作为 Chroma 的创始人，Jeff 分享的内容还是很值得一看的。我对此进行了一些整理，希望大家理解起来更加方便一些。

那，我们现在开始。

1.上下文工程：AI 时代的核心技能

对于最近很火的上下文工程，Jeff 将其定义为：在任何给定的LLM 生成步骤中，精确决定上下文窗口应包含何种信息的任务。

这里包含了两个循环，Jeff 认为一个是内循环，决定当前这一步中，应该塞入哪些内容给到模型作为上下文，还有一个是外循环，随着对话次数的增加、时间的积累，逐渐要让模型选择最相关的信息。

他甚至批评 RAG 这一个术语，认为它将检索、增强、生成三个概念硬拼在一起，且常被误解为只做单次的向量检索。Jeff 自己说他是从来不用 RAG 这个词汇的。

「emmm..确实是这样，做过 RAG 项目的同学其实都有经验，RAG 中最重要的就是检索这一环节，如果检索内容都出现问题了，后面的增强、生成都是白扯，所以 RAG 其实就是只有检索这一part」

Chroma 通过研究，发现当前的 AI 应用中存在着严重的上下文腐烂的问题。当模型的上下文窗口中存在着更多 Token 时，模型的注意力会下降，推理能力也会随之减弱。对于当前前沿模型声称能够完美利用百万级 Token 上下文窗口的说法，Jeff 也保持着怀疑的态度。Chroma 的报告显示，许多模型在长上下文的场景中的性能并不理想。

「作为一个经常评测各大模型的博主，这点真的深有同感。很多模型虽然声称虽然有 256k 甚至 1M 的上下文窗口，但是长上下文表现非常不理想。推荐阅读 MinMax 的长上下文评测：DeepSeek用户看过来：这个开源模型的上下文是它的15倍，还能思考80k字" data-itemshowtype="0" linktype="text" data-linktype="2">DeepSeek用户看过来：这个开源模型的上下文是它的15倍，还能思考80k字」

为了解决这些问题，Jeff 同样分享了上下文工程中的实用策略：

两阶段检索范式：首先进行第一阶段检索（向量、全文、元数据检索），从海量候选数据中快速筛选出少量相关数据。随后将这些初步筛选结果交给 LLM 作为重排序器进行精细筛选。随着 LLM 变得更快，更便宜，Jeff 认为以往专用的重排序模型将逐渐被 LLM 替代。
代码上下文优化：代码是一种特殊的上下文。Chroma 原生支持 Regex （正则表达式搜索）并引入了独特的Forking 功能，用户可以再百毫秒内创建现有索引的副本，从而高效地对不同 git 提交、分支或发布标签的代码库进行重索引和搜索。当然，千万不要神化 embedding，regex 仍然解决 85%-90% 的查询，embedding 通常还能带来 5-15% 的额外增益，所以这套组合拳才是实际项目工程中的最优解。

「Claude Code 包括 Cline 这类代码 Agent其实专门说过一个点是，它们从来不对代码做 Embedding或索引，而是直接通过调用工具的方式来做代码搜索。推荐可以看下我写的这篇分享: Claude烧钱，Cline更烧钱，但聪明的开发者都在抢着用｜ Cline 博客分享Jeff 其实是认为拿代码来做 Embedding 还非常的早期，可能现在的代码库我们使用 Regex 就能解决大部分的问题，但是Embedding 还能在这之上带来更好的效果。」
数据预处理与信号增强：Jeff 强调，在数据读取并处理的时候，要尽可能地提取并注入结构化信息和元数据。例如，通过 Chunk Rewriting 技术，让 LLM 为代码生成自然语言描述，然后将这些描述与代码本身一同embedding 或者单独做 embedding 处理。
构建黄金数据集的重要性：Jeff 指出，构建小型、高质量的数据集对于量化评估和持续改进系统非常重要。许多团队都是有文档、有答案、就是没有用户的查询，导致无法量化检索的优劣。正确的做法是：使用 LLM 为你的语料自动生成 query-chunk 对，得到小而精的评测集，用它来权衡召回，精度，成本，可用性再稳步迭代。实践证明：几百条高质量的评估集，能带来巨大的回报。

「无数论文、实验证明，好的数据质量决定一切」

2. 未来检索系统的进化

Jeff 对未来的检索系统的优化方向提出了两个进化的方向：

持续检索。现在的检索系统都是一次检索完了之后，就直接输出。Jeff 认为未来应该是边检索边输出，根据需要，随时可以去检索。
停留在潜空间。其实这个算是持续检索的前置吧，做完 Embedding 之后，不会回到自然语言，而是停留在潜层空间，这样一来，如果要接着检索的话，直接去潜空间里检索就行。

3. 关于 AI 记忆：本质是更好的上下文调度

Jeff 非常推崇记忆这个概念，，因为记忆这个词非常的拟人化，而且无论是 AI 圈内的人还是外人都能一下子听得懂这是在说什么。

AI 记忆，本质上是上下文工程的体现。我们所要考虑的是如何将正确的信息放入到上下文窗口中。

Jeff 非常反对造新词，尤其是市面上有层出不穷的记忆概念，大多数情况下，它们的本质是相同的。他推崇类似数据库里的离线处理、数据压缩和重索引概念，让 AI系统通过持续的自我改进来实现记忆功能。

4. 创业哲学与方法论

在访谈的最后，Jeff 也分享了他自己的创业哲学和人文关怀。他的人生完全就是北极星原则：只做自己热爱的工作、只与自己喜欢的人共事，只服务自己认同的客户。

他强调他自己创业其实是为了不仅仅是想把工作做好，更想让自己做的工作被更多的人看到。真正的影响力在于发明出伟大的事物，并尽可能让更多的人使用。

同时，他还深入探讨了品牌和文化的重要性。他认为一个公司的创始人必须得是公司的品味策展人。创始人最在意的东西，往往会成为公司做到极致的部分。他要确保从办公室环境、网站设计、API 体验到内部面试流程，每一个环节都展现出一致的，高质量的品牌体验。他将此视为自己作为创始人为公司做的最重要的事情之一。

在团队建设上，çhroma 秉持着慢招、精选的原则。Jeff 寻求那些真正热爱工作、对工艺和质量有极高标准、能独立执行，并愿意与团队并肩作战的工程师和设计师。

「没错，现场打起了招聘广告了」

特地去看了下 Chroma 的官网，确实挺漂亮的。

5.写在最后

好啦，今天的分享就先到这儿了～

Jeff 的分享还是非常有价值的，真的推荐大家对这一期的视频反复观看，尤其是他不仅仅分享了他对当前技术的思考，还讲述了他自己创业的一些经历以及工作的一些原则。这些东西无论是对我们自己的工作还是生活都会非常有益。

以上，

{{userData.name}}已认证

RAG 已死，上下文工程当立

小白也能轻松看懂的RAG！！！

RAG关键技术：问题改写（Query Rewriting/Transformation）