Golden-Retriever：提升工业知识库检索准确性

今天分享的是一篇面向工业知识库的RAG文章: Golden-Retriever: High-Fidelity Agentic Retrieval Augmented Generation for Industrial Knowledge Base，用于工业知识库的高保真代理式检索增强生成。

论文链接: https://arxiv.org/pdf/2408.00798

背景

随着大规模语言模型（LLMs）的普及，它们在知识库查询中的应用越来越广泛。然而，现有的RAG（Retrieval-Augmented Generation）技术在处理工业知识库中的领域特定查询时，常常表现不足。一个主要挑战是模型对领域特定术语（如技术缩写和术语）的误解和"幻觉"问题。例如，"PUC"在不同上下文中可能有不同的含义，错误的解释会导致不相关或错误的文档检索。此外，现有的解决方案如Corrective-RAG 和 Self-RAG，虽然能在检索之后修正响应，但如果初始检索因误解术语或上下文缺乏而存在缺陷，则无法完全解决根本问题。因此，现有方法在处理模糊或领域特定的问题时存在局限性。

为了解决这些挑战，这篇文章提出了Golden-Retriever，它在文档检索前增加了反思式问题增强模块，先识别术语，再结合上下文进行解释，确保问题得到有效扩展，从而提升检索的准确性。

下面是对这三种方式的流程说明：

方法

Golden-Retriever由离线（offline）和在线（online）两部分组成。离线部分是知识库聊天机器人部署前的数据预处理步骤。在线部分是每次用户提问时的交互过程。下面将详细介绍每个阶段。

1. 离线部分：文档增强

Golden-Retriever通过OCR技术从原始文档中提取文本，将其分割成适合处理的块（如每块约4000个Token），并使用LLM生成域专家视角的摘要。这些经过增强的文档被添加到数据库中，以提高检索时的相关性。

以下是文档增强部分的流程图：

2. 在线部分：交互流程

每当用户提出问题时，系统会按照以下步骤进行处理：

识别术语(Identify Jargons)：首先，系统会识别问题中的术语和缩写，这一任务由 LLM 处理，因为传统的字符串匹配方法难以应对术语的拼写错误或未包含在词典中的新术语。识别出的术语将以结构化的格式保存，以便在后续的处理流程中使用。
识别上下文(Identify Jargons)：由于术语的意义在不同上下文中可能不同，Golden-Retriever接着识别问题的上下文。例如，"RAG"在不同领域有不同的含义（如LLM领域中的“检索增强生成”与遗传学中的“重组激活基因”）。通过设计包含预定义上下文名称及描述的提示模板，LLM能够识别出问题所处的语境。通过这种方式，Golden-Retriever在检索文档之前准确澄清了术语的上下文，确保检索更为精准。
查询术语(Query Jargons)：一旦术语和上下文被识别出来，系统会查询术语词典以获取扩展定义、详细描述及相关备注。查询的SQL代码通过安全可靠的代码生成，而非使用LLM生成，以确保查询的质量和安全性。
增强问题(Augment Question)：通过将术语定义和上下文信息与原始问题整合，系统生成增强后的问题。这一过程确保RAG在检索时能够准确理解问题的背景和术语，从而提升检索文档的相关性。
查询未命中响应(Query Miss Response)：如果系统无法找到某些术语的相关信息，Golden-Retriever会生成一个响应，提示用户检查术语拼写或联系知识库管理员添加新术语。这样可以避免误导性回答，并保持系统的高准确性。

以下是离线推理部分的工作流程图：

实验

文章进行了两个实验来评估方法的有效性：第一个实验测试了基于文档回答领域特定问题的能力，结果显示Golden-Retriever在所有LLM上显著提升了问答准确性。与Vanilla LLM和RAG相比，Gold-retriever将Meta-Llama-3-70B的总分分别提高了79.2%和40.7%。在所有三个LLM测试中，gold-retriever比Vanilla LLM平均提高57.3%，比RAG平均提高35.0%。；第二个实验测试了LLM识别未知缩写的能力，结果表明Golden-Retriever系统中的LLM能够高效识别问题中的缩写，这对提升解答准确性起到了关键作用。

问答实验结果：

缩写识别实验结果：

总结

Golden-Retriever通过术语和上下文识别，以及问题增强机制，在检索之前消除了模糊性和误解。它不仅提高了RAG的文档检索准确性，而且有效应对了术语歧义和领域特定知识的挑战。通过离线和在线两部分的协作，Golden-Retriever在真实工业环境中的知识库应用中提供了一个更为可靠的解决方案

{{userData.name}}已认证

背景

方法

1. 离线部分：文档增强

2. 在线部分：交互流程

实验

总结

以快争先，腾讯混元大模型10天拐过S弯

在长上下文LLM的时代，RAG是否仍然必要？