Zero-RAG，对冗余知识说“不”

一、LLM 越学越满，RAG 却越搬越重

图 1：知识冗余示意图

(a) Llama3.3-70B 在四个 Wikipedia 风格 QA 数据集上裸模型 Exact-Match 召回 ≥40%——说明近一半问题模型本来就会。
(b) 把对应维基段落再送进上下文，准确率反而掉 20 分——冗余知识成了"噪声"。

结论：外部 corpus 与模型内部知识高度重叠，继续"全量检索"≈ 白花钱、拖延迟、降效果。

复旦大学邱锡鹏提出Zero-RAG。首先提出了"掌握度评分"这一指标，用以精准识别RAG知识库中的冗余知识并进行剪除。经过剪枝后，对于模型已"掌握"的问题，其回答将主要依赖模型自身的内部知识。

表 1：主实验汇总（Llama3-70B vs Llama3.3-70B）

在 TriviaQA、EntityQuestions、PopQA、HotpotQA 上砍掉 30% corpus，EM 掉点 <2；砍 70% 也才掉 3 分左右。
检索延迟平均降低22%（表 4）。
经过 Noise-Tolerant Tuning 后，部分数据集反超市售全库 RAG。

一句话："零冗余"不是口号，是真能剪、真加速、真不掉点。

图 4：Zero-RAG 四阶段流水线

图 3：Mastery-Score 计算流程

结果：138M 句维基 → prune 30% 后索引体积同比例缩小。

表 3：消融实验

消融显示：拿掉 Router 后 EM 显著下降，证明多检索一次反而添乱。

训练数据三种配方：

统一损失让模型学会忽略无用片段，靠内部知识作答。
经此微调，即使在 prune 后 corpus 里偶尔捞出无关句，模型也能"视而不见"。

表 6：案例研究

❝

句子："Queen Victoria became Empress of India in 1876."
生成的 4 个 QA 全被 Llama3-70B 裸机答对 ⇒ Mastery-Score=1 ⇒ 直接剪除。

这些"教科书级别"的常识，就是 Zero-RAG 眼中该被"零冗余"的靶子。

Zero-RAG: Towards Retrieval-Augmented Generation with Zero
Redundant Knowledge
https://arxiv.org/pdf/2511.00505