一、LLM 越学越满,RAG 却越搬越重
|
|
|---|
![]() |
-
(a) Llama3.3-70B 在四个 Wikipedia 风格 QA 数据集上裸模型 Exact-Match 召回 ≥40%——说明近一半问题模型本来就会。 -
(b) 把对应维基段落再送进上下文,准确率反而掉 20 分——冗余知识成了"噪声"。
结论:外部 corpus 与模型内部知识高度重叠,继续"全量检索"≈ 白花钱、拖延迟、降效果。
二、30% 维基百科可删,22% 延迟立降,效果不减
复旦大学邱锡鹏提出Zero-RAG。首先提出了"掌握度评分"这一指标,用以精准识别RAG知识库中的冗余知识并进行剪除。经过剪枝后,对于模型已"掌握"的问题,其回答将主要依赖模型自身的内部知识。
|
|
|---|
|
|
![]() |
-
在 TriviaQA、EntityQuestions、PopQA、HotpotQA 上砍掉 30% corpus,EM 掉点 <2;砍 70% 也才掉 3 分左右。 -
检索延迟平均降低22%(表 4)。 -
经过 Noise-Tolerant Tuning 后,部分数据集反超市售全库 RAG。
一句话:"零冗余"不是口号,是真能剪、真加速、真不掉点。
三、技术方案Zero-RAG
|
|
|---|
![]() |
3.1 Mastery-Score —— 给每条句子打"掌握度"
|
|
|---|
![]() |
-
用 LLM 对句子 s 生成 n 组 QA。 -
让同一 LLM 回答这 n 个问题,算 Exact-Match 均值 ⇒ M(s)。 -
训练一个小回归模型预测 M(s),按百分位阈值 τ 直接删掉高分句子(算法见附录 A.1)。
结果:138M 句维基 → prune 30% 后索引体积同比例缩小。
3.2 Query Router ——"会不会"先问模型,别急着搜
|
|
|---|
![]() |
-
把训练集问题先让 Noise-Tolerant 模型自答,能答对的标 mastered。 -
二分类器学习"是否 mastered",推理时 mastered 问题直接不走检索,减少延迟 + 避免噪声。
消融显示:拿掉 Router 后 EM 显著下降,证明多检索一次反而添乱。
3.3 Noise-Tolerant Tuning —— 万一搜到废文档,也要稳住
训练数据三种配方:
-
只给问题 → 答案(无 RAG) -
问题 + 相关文档 → 答案 -
问题 + 随机噪声文档 → 答案
统一损失让模型学会忽略无用片段,靠内部知识作答。
经此微调,即使在 prune 后 corpus 里偶尔捞出无关句,模型也能"视而不见"。
四、一图带走:Zero-RAG 到底剪了什么?
|
|
|---|
![]() |
❝
句子:"Queen Victoria became Empress of India in 1876."
生成的 4 个 QA 全被 Llama3-70B 裸机答对 ⇒ Mastery-Score=1 ⇒ 直接剪除。
这些"教科书级别"的常识,就是 Zero-RAG 眼中该被"零冗余"的靶子。
Zero-RAG: Towards Retrieval-Augmented Generation with Zero
Redundant Knowledge
https://arxiv.org/pdf/2511.00505








