
RAG(Retrieval-Augmented Generation):检索增强生成,是一个系统化的框架,通过对外部知识库进行检索、整合,辅助大语言模型(LLM)生成更可靠、更具上下文信息的响应。解决LLM知识静态、幻觉、上下文限制等问题。
RAG主要步骤如下:
-
Indexing:数据预处理和准备;主要包含数据预处理、分块、嵌入、存储等过程,最终数据以向量形式存放在向量数据库中;
-
Retrieval:检索;根据Query查询相关性高的数据块,涉及到向量的相似度计算和不同检索策略的应用;
-
Augmentation:增强;将查询到的数据块和Query进行整合,形成一个新的、更丰富的Prompt;
-
Generation:生成;利用LLM对增强的Prompt生成最终响应。

二、RAG发展路线
至今为止,RAG的发展经历了Naive RAG、Advanced RAG、Modular RAG、Graph RAG、Agentic RAG 5个阶段:
-
Naive RAG:依赖简单的关键词检索技术,从静态数据集中提取文档用来增强LLM的生成能力,具有语义感知不足、输出碎片化、可扩展性差等缺点;
-
Advanced RAG:引入了语义理解和改进的检索技术:向量嵌入、向量搜索、重排序、多跳检索等,但也具有计算开销大,多步推理能力有限等局限;
-
Modular RAG:将检索和生成分解为独立、可复用的组件,支持领域特定的优化和任务适应性,支持混合检索、外部工具调用、pipeline组合等特性,但这也导致架构复杂度高,高度依赖组件协同等问题;
-
Graph RAG:利用图数据捕捉实体与实体之间的关系,进一步增强多跳推理和上下文丰富性,缺点是对数据依赖强,处理非结构化数的能力较弱;
-
Agentic RAG:引入能够进行动态决策和工作流优化的自主Agent,自适应检索策略,能够处理更加复杂的查询,但需要面对Agent协调与资源管理的挑战。
三、Agentic RAG
AI Agent的工作模式是Agentic RAG的演进的理论基础。通过集成能够进行动态决策、迭代推理和协作工作流的自主Agent,Agentic RAG 系统展现出更强的适应性和准确性。AI Agent主要包括LLM、Planning、Memory、Tool Use四个模块:
-
大型语言模型(LLM):作为Agent的主要推理引擎和对话接口,负责解释用户查询、生成响应并保持连贯性;
-
记忆系统(Memory,短期和长期):捕捉交互中的上下文和相关数据。短期记忆跟踪即时对话状态,而长期记忆存储积累的知识和Agent习惯和经验;
-
规划(Planning,反思与自我批判):通过反思、查询路由或自我批判引导Agent的迭代推理过程,确保复杂任务被有效分解;
-
工具(Tool Use,向量搜索、网络搜索、API 等):扩展Agent超越文本生成的能力,使其能够访问外部资源、实时数据或专业计算。

四、Agentic RAG 的不同工作模式
Agentic RAG具有灵活多变的工作模式,取决于任务的复杂度和对应场景:
-
Prompt chain:将复杂任务分解为多个步骤,每个步骤基于前一步骤的结果构建。这种结构化方法通过简化每个子任务来提高准确性,但由于顺序处理可能会增加延迟;
-
Routing:对输入进行分类,并将其导向适当的专业提示或处理流程。这种方法确保不同的查询或任务被分开处理,从而提高效率和响应质量;
-
Parallelization:将任务分解为可同时运行的独立进程,从而减少延迟并提高吞吐量。可分为切片(独立子任务)和投票(为提高准确性生成多个输出)两种类型;
-
Orchestrator-Workers:特点是有一个中央协调器模型,它动态地将任务分解为子任务,分配给专门的工作模型。与并行化不同,它能适应不同的输入复杂度;
-
Evaluator-Optimizer:通过生成初始输出并根据评估模型的反馈进行优化,迭代地改进内容。
不同工作模式架构图(由上至下)
五、Agentic RAG 分类
Agentic RAG系统可根据其复杂性和设计原则分为不同的架构框架。
-
Single-Agent Agentic RAG:由单个Agent管理信息的检索、路由和集成。该架构通过将任务整合到一个统一的Agent,简化了系统,在工具或数据源有限的场景中特别有效;

-
Multi-Agent Agentic RAG:通过利用多个专业Agent处理复杂工作流和多样化查询类型。该系统任务拆解、分配给多个Agent,每个Agent针对特定角色或数据源进行优化;
Multi-Agent Agentic RAG
-
Hierarchical Agentic RAG:采用结构化的多层级方法进行信息检索和处理,该方法同时提升了效率和战略决策能力。Agent按层级组织,高层Agent监督并指导低层Agent,这种结构支持多级决策,确保查询由最合适的资源处理;

-
Agentic Corrective RAG:引入了自我纠正检索结果的机制,它提高了文档利用率,改善了响应生成质量。通过将智能Agent嵌入工作流程,校正型 RAG 确保对上下文文档和响应进行迭代优化,最大限度地减少错误并提高相关性;

Agentic Corrective RAG
-
Adaptive Agentic RAG:通过根据传入查询的复杂度动态调整查询处理策略,提升LLM的灵活性和效率。与静态检索工作流不同,自适应 RAG 使用分类器评估查询复杂度,并确定最合适的处理方式,从单步检索到多步推理,甚至对简单查询完全绕过检索;

-
Graph-Based Agentic RAG:将图知识库与非结构化文档检索相结合,增强了RAG系统的推理能力和检索准确性,同时采用模块化检索器组、动态Agent交互和反馈循环以确保高质量输出;

-
Agentic Document Workflows(ADW)in RAG:
ADW通过实现端到端知识工作自动化,扩展了RAG范式。这些工作流编排以文档为中心的复杂流程,通过智能Agent集成文档解析、检索、推理和结构化输出。

六、应用场景
|
|
|
---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
文章提到了以下工具和框架,可以满足现实应用的复杂需求:
|
|
|
---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
八、Agentic RAG 总结
系统演进与优势:
- Agentic RAG 系统整合自主Agent,增强传统 RAG 的动态决策和自适应能力;
-
关键特点: 动态决策、迭代推理和协作工作流;
-
应用领域: 医疗、金融、教育、创意等,提供个性化和实时解决方案;
面临的挑战:
-
多Agent协调: 多Agent架构中的复杂性和可扩展性问题;
-
评估标准不足: 缺乏评估Agent智能能力的标准数据集和基准;
-
伦理与稳健性: 需要在责任和安全性上保持平衡。
未来展望:
-
增强适应性:持续优化多Agent协作和动态响应能力;
-
跨行业变革:应用于多领域,实现高效、智能的解决方案;
-
成为AI核心:Agentic RAG 成为构建上下文感知 AI 系统的基石。