❝
你以为RAG(Retrieval-Augmented Generation)检索只能靠向量?那你可就out了!今天,咱们就来聊聊如何用“向量+关键词”双剑合璧,打造检索界的“六边形战士”——融合检索(Fusion Retrieval)。
一、检索界的“武林大会”:向量 vs. 关键词
在AI知识检索的江湖里,向量检索和关键词检索(BM25)各有绝活:
-
向量检索:擅长“意会”,能理解“你说的不是你说的,但我懂你说的”。 -
关键词检索:擅长“言传”,只认死理,谁说得准、谁出现得多,谁就是老大。
但问题来了:
-
向量检索有时太“通透”,把“苹果”当“水果”,却忘了你其实想要“iPhone”。 -
关键词检索死磕字面,遇到“同义词”“语境”就抓瞎。
于是,江湖呼唤一个能“文武双全”的检索大侠——融合检索。
二、融合检索:检索界的“六边形战士”
融合检索(Fusion Retrieval)就是把向量和关键词检索的优点揉在一起,既能“意会”又能“言传”,让检索结果既懂你心思,又不丢细节。
为什么要融合?
-
向量检索:适合“模糊搜索”“语义理解”,但有时会漏掉关键词的“硬核”匹配。 -
BM25关键词检索:适合“精确打击”,但对“语义漂移”无能为力。 -
融合检索:两者结合,既能抓住“关键词”,又能理解“上下文”,检索效果直接起飞!
三、融合检索的“炼丹炉”:整体流程一览
别怕,流程其实很简单,咱们用伪代码和思路带你飞:
-
文档处理:PDF提取文本 → 清洗 → 分块(chunking) -
向量化:每个chunk生成embedding,存入向量库 -
关键词索引:用BM25为每个chunk建关键词索引 -
检索时:
-
用向量检索找“语义相近”的chunk -
用BM25找“关键词命中”的chunk -
两种分数归一化,按权重融合 -
综合排序,取Top-K
是不是很丝滑?下面我们逐步拆解。
四、文档处理:从PDF到“知识碎片”
1. PDF文本提取
用PyMuPDF等工具,把PDF里的内容一页页扒出来,拼成大文本。
text = extract_text_from_pdf(pdf_path)
2. 文本清洗
去掉多余空格、换行、奇怪符号,保证后续处理不“踩雷”。
cleaned_text = clean_text(text)
3. 分块(Chunking)
把大文本切成小块(比如每1000字符一块,重叠200字符),这样既能覆盖上下文,又不丢细节。
chunks = chunk_text(cleaned_text, chunk_size=1000, chunk_overlap=200)
五、知识入库:向量库 & BM25索引
1. 向量化
用OpenAI/BGE等embedding模型,把每个chunk变成“高维向量”,存进自定义的向量库。
embeddings = create_embeddings([chunk["text"] for chunk in chunks])
vector_store.add_items(chunks, embeddings)
2. BM25关键词索引
用BM25算法,把每个chunk的词分词、建索引,方便后续“关键词检索”。
bm25_index = create_bm25_index(chunks)
六、检索时刻:双剑合璧的“融合检索”
1. 向量检索
用用户query生成embedding,和所有chunk的embedding算余弦相似度,取Top-K。
vector_results = vector_store.similarity_search_with_scores(query_embedding, k=K)
2. BM25检索
把query分词,和BM25索引比对,算分数,取Top-K。
bm25_results = bm25_search(bm25_index, chunks, query, k=K)
3. 分数归一化 & 融合
-
两种分数都归一化到0~1区间 -
用权重alpha(比如0.5)加权融合
伪代码如下:
norm_vector_scores = normalize(vector_scores)
norm_bm25_scores = normalize(bm25_scores)
combined_scores = alpha * norm_vector_scores + (1 - alpha) * norm_bm25_scores
4. 综合排序,取Top-K
按combined_scores排序,取前K个chunk,拼成context。
七、生成答案:让大模型“锦上添花”
把Top-K chunk拼成context,和query一起丢给大模型(如Llama3、GPT-4),让它“有理有据”地回答。
response = generate_response(query, context)
八、三大检索法大比拼:谁才是“最强王者”?
我们分别用三种方式回答同一个问题,比如:
❝
“Transformer模型在自然语言处理中的主要应用有哪些?”
1. 向量检索RAG
-
优点:能理解“transformer”与“NLP”的语义关系 -
缺点:如果文档没明确提到“transformer”,可能找不到
2. BM25关键词检索RAG
-
优点:只要文档里有“transformer”,一定能命中 -
缺点:如果文档用的是“变换器模型”或“self-attention”,就GG了
3. 融合检索RAG
-
优点:既能抓住“transformer”关键词,又能理解“上下文”语义 -
缺点:实现稍复杂,计算量略大
实测结果(真实案例):
-
向量检索:答得还行,但没点名“transformer”的具体应用 -
BM25检索:死磕关键词,没找到就说“没提到transformer” -
融合检索:不仅列举了“机器翻译、文本生成、情感分析、文本分类、语言建模”,还解释了transformer在NLP的地位
结论:融合检索完胜!
九、融合检索的“江湖秘籍”:适用场景与调优建议
1. 什么时候用向量检索?
-
语义理解为主,关键词不确定 -
用户问题“拐弯抹角”,比如“能自动写诗的AI模型有哪些?”
2. 什么时候用BM25关键词检索?
-
用户问题“指名道姓”,比如“文档里有没有‘Transformer’这个词?” -
法律、医学等领域,关键词极其重要
3. 什么时候用融合检索?
-
你既想“意会”又想“言传” -
文档内容复杂,既有专业术语又有通俗描述 -
用户问题既有关键词又有语义需求
4. 融合权重怎么调?
-
alpha=0.5:向量和BM25各占一半,适合大多数场景 -
alpha→1:更偏向语义理解 -
alpha→0:更偏向关键词命中
可以多做A/B测试,找到最适合你业务的权重。
十、工程实践Tips
-
分块策略很重要:chunk太大,检索不准;太小,语义丢失。建议1000字符左右,重叠200字符。 -
embedding模型选型:英文用OpenAI/BGE,中文可选BGE-m3、text2vec等。 -
BM25分词:中文要用jieba等分词器,英文直接split即可。 -
归一化要做对:分数归一化别忘加epsilon防止除零。 -
检索速度优化:向量库可用FAISS、Milvus等,BM25可用Whoosh、Elasticsearch等。
十一、未来展望:融合检索的进阶玩法
-
多模态融合:不仅文本,还能融合图片、表格等多种信息 -
动态权重调整:根据query类型动态调整alpha -
用户反馈闭环:用用户点击/满意度反向优化检索权重 -
端到端训练:用大模型微调,让检索和生成更“心有灵犀”
十二、总结:融合检索,RAG的“最优解”?
融合检索不是“银弹”,但在大多数实际场景下,它能显著提升RAG系统的召回率和答案质量。它让AI既能“知其然”,又能“知其所以然”。
一句话总结:
❝
“向量检索懂你,BM25不放过你,融合检索——既懂你又不放过你!”
结尾彩蛋:一张图看懂融合检索
用户Query
│
├─► 向量检索(语义理解) ──┐
│ │
├─► BM25检索(关键词匹配) ─┤→ 分数归一化 → 加权融合 → Top-K排序
│ │
└────────────────────────────┘
│
拼成Context
│
丢给大模型生成答案
你还在等什么?
赶紧把你的RAG升级成“融合检索”吧!让你的AI助手,既能“知你所想”,又能“答你所问”!
关注我,带你玩转AI检索的每一个细节!
互动话题:你在实际项目中遇到过哪些检索“翻车”场景?