最新力作:一招提升RAG检索精度20%

把文档先“让LLM写摘要+打标签”,再用混合向量做检索,比直接扔原文进RAG,Top-10命中率从73%干到92%, latency 还更低。下面一起来具体分析:


痛点直击

  • 企业知识库动辄上千页,传统语义分块+Embedding常“漏答案”
  • 人工写标签成本高,且随文档膨胀迅速失控
  • 长文档“中间丢失”现象导致LLM幻觉频发

方案全景

环节
传统做法
本文做法
分块
语义/固定长度
三套并行:Naive / Recursive / Semantic
标签
无或人工
LLM自动生成
三类元数据:
①内容类型②技术实体③用户意图&可能提问
向量
仅原文Embedding
三通道融合

①纯内容②TF-IDF加权③Prefix-Fusion(标签前缀)
重排
Cross-Encoder(BAAI/bge-reranker)生成0-1相关度真值
最新力作:一招提升RAG检索精度20%

工作原理(3步10秒看懂)

  1. Recursive Chunking
    先按段落→句子→token三级拆分,512 token滑窗128重叠,结构不断层
  2. LLM元数据工厂
    用GPT-4o(temp=0.5)批量输出JSON格式标签,单chunk<500 ms
  3. TF-IDF加权向量
    原文Embedding × 0.7 + 元数据TF-IDF向量 × 0.3,Snowflake Arctic-Embed-m一次编码,1536维
最新力作:一招提升RAG检索精度20%

实验结果(AWS S3 6K页文档)

配置
Hit@10
精度@10
NDCG@10
语义分块+原文向量(基线)
0.788
0.733
0.730
Naive+TF-IDF加权
 ⬆️
0.925
0.702
0.717
Recursive+TF-IDF加权
 ⬆️
0.825
0.825 0.807
  • 元数据使向量聚类更紧密(最近邻距离↓17%)
  • 检索延迟反降12% ——标签过滤提前剪掉30%候选

给企业落地的一张 checklist

✅ 先上Recursive+TF-IDF:精度最稳,82%起步
✅ Hit率优先场景(如客服QA)改用Naive+Prefix-Fusion,直接冲92%
✅ 元数据Prompt模板固定输出JSON,方便后续换更小LLM降本
✅ Cross-Encoder重排只在离线标注阶段用,线上仍走双Encoder,延迟可控


一句话带走

“让LLM先给文档写‘小抄’,再进RAG,企业知识库立刻少幻觉、多命中。”

RAG技术前沿技术新闻资讯

Apple 入局 RAG:深度解析 CLaRa 框架,如何实现 128x 文档语义压缩?

2026-4-10 11:24:59

RAG技术前沿技术新闻资讯

让AI真正懂数据:猫超Matra项目中的AI知识库建设之路

2026-4-10 13:30:44

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
购物车
优惠劵
搜索