导读 在智能体与大模型应用不断深入的背景下,检索增强生成(RAG)技术正经历从“检索+生成”向“检索+推理+记忆+多模态”一体化的跃迁。本文首先剖析 RAG 系统在推理链构建和 Agent Layer 中引入知识图谱、MCTS 及强化学习的优化路径,继而探讨记忆层在动态检索、注意力过滤与多智能体协作中的实现方式;最后聚焦多模态场景下的张量化检索与延迟交互模型(COL),并针对存储膨胀、重排序和索引降维等工程挑战,系统阐述如何在数据库和模型层面协同创新,为下一代智能体底层架构提供可行思路。
1. 推理篇
2. 上下文和 Memory
3. 多模态 RAG
4. 总结
分享嘉宾|张如欢 上海稀宇极智科技有限公司(MiniMax) 资深架构师
编辑整理|陈思永
内容校对|郭慧敏
出品社区|DataFun
扫码入群参与讨论

✅ 对分享有疑问?群里问!
✅ 老师在线解除疑惑!
✅ 有心得体会想分享?群里聊!
扫码入群参与讨论

01
推理篇
近年来,Retrieval-Augmented Generation(RAG)技术在企业智能问答与知识管理系统中的应用不断拓展。随着大模型能力的进步,其演进趋势呈现出三个关键方向:推理(Reasoning)、记忆(Memory)与多模态(Multimodal)。

传统的 RAG 系统通常采用基于简单检索与问答的模式,面对复杂问题时难以构建清晰的因果链条。例如,当被问及“公司去年业务下滑的原因”,系统若仅通过文本检索返回相关片段,往往无法有效回答。这一能力缺失并非模型规模或推理大模型的接入问题,而在于未构建起完整的思维链。

有效的推理应模拟人类问题解决流程:接收问题后进行拆解,推导出可能的影响因素,再针对每一因素进行数据调研与判断,最终形成结构化的回答。这种思维链条的构建,需要系统具备“拆解–检索–整合–反思”的能力。

早期某项目探索了此路径:将用户提出的复杂问题交由大模型进行子问题拆解,然后针对每个子问题独立进行检索,构建所谓的 reasoning document。该文档用于规避信息冗余或冲突,提高信息整合质量。在此基础上,通过多轮迭代与反思,系统逐步形成稳定的思维路径。
Agent Layer 的引入标志着 RAG 系统从“检索 + 回答”向“检索 + 推理 + 决策”转变。通过加入智能体层,模型可以在多个子问题间进行策略性判断。例如微软的 PIKE-RAG 系统结合了知识图谱,用于优化子问题生成的准确性与覆盖度;LevelRAG 进一步将检索流程细分为高层次推理路径规划与低层次数据抓取,提升了整个系统的逻辑一致性与查询精度。

在企业内部数据应用场景中,简单的思维链构建已经展示出良好效果。即使未接入强化推理大模型,仅依赖如 GPT-3.5 等基础模型,通过合理的 Agent 层设计与子问题分解,同样可以得到贴合企业语境的推理结果。
核心流程如下:
-
模型接收复杂问题,进行初步思考与拆解。
-
子问题配置多种数据源进行检索,既包括企业内部的结构化数据,也包括必要的外部互联网数据用于补充常识或背景。
-
将检索结果整合为推理链,并持续迭代与优化,直至得到最终答案。
在此过程中,知识图谱的引入也显著提升了子问题生成的相关性与逻辑严密性,尤其适用于企业内部关系复杂、实体众多的应用环境。
Agentic Reasoning 演示如下:



尽管当前基于 Agent Layer 的推理机制已具备一定能力,但其推理路径仍依赖于预设策略或有限规则。
为了进一步提升系统的决策效率与灵活性,可以考虑引入蒙特卡洛树搜索(Monte Carlo Tree Search,MCTS)与强化学习机制。

MCTS 通过模拟多个推理路径,结合奖励函数评估每条路径的优劣,从而优化推理流程中的关键决策点。

强化学习模型则可以在反复交互中,学习针对特定任务与数据环境的最优策略。例如,通过策略语言模型(Policy LLM)学习何时应继续拆解问题,何时应终止推理并生成答案,以及如何结合外部搜索与知识图谱信息等。
尽管技术路径逐步清晰,但推理能力的大规模落地仍面临实际挑战。标准化产品往往只能满足 70%-80% 的准确率,若目标为 90% 或更高,则需要针对特定企业环境进行深度定制。这不仅包括知识图谱的建设与维护,还涉及 Embedding、Ranking、Policy 等模型层面的微调与融合。
在实际开发过程中,还需明确推理何时应终止、何种行为最优、如何在效率与精度间权衡等问题。这些都需依赖于强化反馈机制、行为评价函数以及针对行业需求所构建的多维评估指标体系。
扫码入群参与讨论

✅ 对分享有疑问?群里问!
✅ 老师在线解除疑惑!
✅ 有心得体会想分享?群里聊!
扫码入群参与讨论

02
上下文和 Memory

在智能体系统的演进过程中,Memory(记忆)与 RAG 系统的融合逐渐成为提升其推理和决策能力的关键。
智能体框架的核心竞争力之一源自其 Memory 层。在多智能体环境中,智能体不仅需要存储历史数据,还需要能够从历史中推理出新的结论或行为。因此,Memory 层在智能体推理和决策过程中起到至关重要的作用。Memory 为智能体提供了“养料”,即推理所需的素材,而智能体则根据当前情境选择性地读取并利用这些 Memory。
与传统的 RAG 系统相比,智能体与 Memory 的关系更为动态和优先级导向。RAG 系统基于静态检索进行问答,而在智能体系统中,Memory 的检索需要更加注重数据的时效性和相关性。智能体系统的 Memory 层因此需要支持动态的、优先级驱动的检索,并对数据的新鲜度进行筛选与过滤。

在传统的 RAG 系统中,检索功能通常作为搜索引擎的升级版,通过搜索与检索来提供答案。其优化的关键在于召回的广度和精度,而不完全依赖于 Memory(记忆)的时效性或优先级。
然而,Memory 系统的引入使得智能体不仅仅依赖于外部检索结果,还需在 Memory 管理、推理链条构建等方面进行深度优化。Memory 层不仅要支持信息的存储与提取,还应具备“衰减”和“遗忘”的机制。人类大脑的注意力模型启示我们,新的信息不断涌入,必须引入遗忘机制,舍弃那些与当前任务无关的 Memory,以提高推理效率和准确性。
此外,Memory 的管理方式也直接影响智能体的效率。在多智能体系统中,如何有效地管理不同智能体间的 Memory、以及是否共享 Memory,成为一个重要的设计问题。智能体之间的协作和 Memory 共享能够提升整体系统的智能水平,支持更复杂的任务和更精细的决策。

Memory 管理的本质是提供推理所需的素材和数据支持。为了实现这一点,Memory 管理系统需要具备以下两种核心机制:
-
过滤:类似于搜索引擎中的检索,过滤机制帮助智能体从庞大的 Memory 库中筛选出最相关的信息。时间权重和优先级排序是其中重要的过滤标准。
-
辅助推理:为了补充检索结果,Memory 管理还需要提供丰富的推理素材,如图谱(GraphRAG)、聚类(Clustering)等,以帮助智能体在处理复杂任务时形成更为准确的推理路径。
这两种机制共同构成了智能体 Memory 的运作基础。Memory 的核心目标是通过注意力机制筛选出最具价值的素材,从而提升智能体在推理过程中的效率与效果。

在智能体系统中,记忆不仅仅限于存储历史数据,还包括对实时上下文的记忆管理。上下文记忆(Contextual Memory)指的是基于当前任务和情境所需的即时数据,它是智能体处理当前任务的核心依据。而长期记忆(Long-term Memory)则指代那些不受时间影响、能够为智能体提供长期学习与决策支持的数据。

Memory 的实现手段主要分为两大类:基于检索的记忆(RAG)和基于向量索引的记忆管理。
RAG 本质上是企业级搜索引擎在当前智能体时代的升级版。在这种方式中,搜索引擎需要优化精度,即保证搜索结果在前几个排名内。具体而言,RAG 的优化目标是确保召回的结果不能漏掉。无论结果排在前面还是后面,只要能够被大模型处理,确保可以得到正确答案。因此,混合搜索在 RAG 中的重要性不言而喻。通过混合搜索,可以采用多种方式进行召回,从而确保所有相关信息都能被保留,提升检索的完整性。
无论是向量索引、全面索引,还是其他类型的索引,实现实时搜索能力是至关重要的。如果无法提供实时搜索,RAG就无法有效支持智能体的记忆管理。因此,记忆的实现方式必须具备强大的实时搜索能力。

在 RAG 系统中,使用 Attention 引擎可以进一步增强与大模型的交互。通过 Attention 机制,在生成过程中,模型可以输出 token 并计算相应的 Attention 得分。这种机制的优势在于,它能够触发下一步的搜索,从而提升模型的自适应能力。此外,Attention 引擎还可以使得搜索行为不再是一次性的,而是一个持续的交互过程,这可以显著改善搜索结果的准确性和相关性。

另一种实现方式是将 KV 缓存和查询层直接集成到数据库层。通过这种方式,可以先利用大模型生成 KV 存储数据,将其保存到硬盘上,并通过向量或全面索引进行快速检索。这种方式有效地将缓存存储从显存转移到数据库中,从而提升系统的扩展性和持久性。

MCP(Memory Context Platform)在解决数据孤岛问题上存在一定局限。虽然MCP可以将不同的数据源通过联邦查询的方式进行整合,但其最终效果较为有限。特别是当数据源数量增多时,MCP 可能导致大模型在处理上下文时产生困惑。因此,需要进一步优化 MCP 的设计,特别是在上下文记忆层的封装上,减少对数据源的暴露,并帮助大模型做出更有效的决策。

在多智能体的应用中,两个或多个智能体能够协作,共同完成一个复杂任务。例如,在医疗场景中,一个智能体可以基于临床报告生成诊断计划,另一个智能体则根据诊断计划和病人的历史数据生成最终的诊断报告。多智能体的协作能够大幅提升系统的智能水平,使其在实际应用中更加有效。
扫码入群参与讨论

✅ 对分享有疑问?群里问!
✅ 老师在线解除疑惑!
✅ 有心得体会想分享?群里聊!
扫码入群参与讨论

03
多模态 RAG

多模态 RAG 主要指如何在复杂的数据源中,特别是 PDF、图片和图表等格式的文件中,进行有效的检索并提供准确答案。传统的 RAG 方法主要处理文本数据,而多模态 RAG 需要将文本、图片等信息进行融合,以便从多种不同格式的数据中提取有价值的信息。

目前,Visual Language Model(VLM,视觉–语言模型)已经成为一种常见的多模态处理方式。通过将视觉编码器与文本 token 相结合,可以训练出视觉–语言模型,进而实现对图片、视频等内容的精准理解。这种方法在多模态 RAG 中具有很大的潜力,能够处理图像和视频等复杂数据,生成对应的答案。

为了评估多模态 RAG 的效果,使用了 ViDoRe Benchmark,这是一个专门用于多模态数据检索的评测标准。ViDoRe Benchmark 涵盖了不同类型的文档,如人工智能报告、政府文件、学术论文等,并通过 NDCG(归一化折扣累积增益)等指标评测检索效果。当前,基于视觉–语言模型(VLM)与 COL 模型的结合,已经成为提高多模态检索性能的主流方法。

VLM 模型通过将向量(Vector)表示转化为张量(Tensor),进一步提升了多模态数据的表示能力。在模型中,图像被转化为多个 token(例如 1024 个 patches),每个 token 都具有向量表示,从而实现图像数据的高效处理和检索。

这一方法在多模态 RAG 系统中被广泛应用,尤其是在处理复杂文档(如科研论文、政府报告)时,能够有效增强检索和推理能力。

COL(延迟交互模型)模型的核心思想是将数据的每个 token 转化为张量,进而通过这些张量与查询进行交互,提升检索结果的准确性。通过这种方式,可以避免传统向量搜索中出现的语义损失问题,且能够捕获查询和文档之间的深度语义交互。

为了训练 COL 模型,核心思想是基于现有的 VLM 模型,添加一个 Col Adaptor(适配器)。该适配器的设计非常简洁,仅需两三层网络结构,关键在于引入对比损失函数。通过对比损失,模型能够在训练过程中区分正样本与负样本,从而学习到有效的排序关系。具体来说,查询向量将与相应的正负样本进行对比,最终得到一个张量作为输出,而非简单的分数。

在实际训练时,可以利用现有的 VLM 生成大量数据,这些模型不仅能应用于文本排序,还能扩展到图像搜索和视频检索任务中。尽管视频检索的相关技术尚处于初步阶段,但其工作流程与文本和图像检索类似。视频中的信息不仅依赖于关键帧,还需要考虑帧与帧之间的时序关系。因此,在视频模型中,通常需要引入时间编码器,将视频转换为视觉标记(token)。这些标记与查询向量交互后,最终得到排序结果,进而完成视频检索。

尽管 COL 模型具有显著的潜力,但在实际应用中,仍然面临着诸多工程挑战。一个显著问题是,由于每个 token 对应的向量通常较大(例如 1024 维),且文本或图像可能包含数千个 token,因此存储空间需求急剧膨胀。这种情况下,存储和处理这些大量张量的成本变得不可承受。为解决这一问题,首先需要在存储和计算上进行优化。
在数据库一侧(Database,DB 侧),一种优化方案是 Tensor Reranker:通过在数据库内进行重排序来降低计算成本。与传统的通过 GPU 进行的外部重排序不同,Tensor 数据可以在索引阶段完成大部分计算工作,因此,重排序可以在数据库内部进行,且无需 GPU 支持。这种方法使得性能提高了两个数量级。此外,由于数据库可以处理更多的候选项(如 Top100 或 Top1000),即使初步筛选的结果不完美,后续的重排序步骤仍然能够提高召回率。
此外,为了降低存储开销,可以使用量化技术(如二次量化)来压缩张量数据。通过将 32 位浮点数压缩为二进制值,存储空间可以被压缩为原来的 1/32,而这对重排序结果的损失非常小,甚至优于传统的张量索引方法。
而在模型测,可以采取以下两种优化策略:
-
降维:使用像 PCA(主成分分析)等降维方法,可以将高维向量(例如 128 维)压缩至更低的维度(如 64 维或 32 维),以此来减少存储和计算负担。
-
降 Token 数量:通过减少每个数据单元(如图片或文档)中 token 的数量,可以显著降低存储开销。例如,将一张包含上千个 patch 的图片,压缩为包含几十个 token 的表示,从而减少存储占用。

RAG(Retrieval-Augmented Generation)模型的实现是一个复杂的技术问题,涉及推理阶段和模型阶段的优化,并要求这两者能够有效协同工作。在实际开发中,很多优化工作必须在数据库层面完成,这也是 RAG 架构需要依赖数据库的原因之一。
在实际产品开发中,RAG 和智能体(Agent)之间的关系将成为一个竞争与合作并存的场景。智能体的推理能力需要依赖于 RAG 模型的存储与检索能力,而 RAG 模型则可以视作智能体的记忆层,不同的 RAG 模型可以为不同的智能体提供定制化的记忆服务。

多模态 RAG 的实现路径主要有三种:
-
精细化的多模态处理:首先提取文档中的图片、表格、公式等信息,然后根据内容类型(如文本或图像)调用相应的处理模块。例如,对于文本内容使用 OCR 将其转化为文字,对于图像使用视觉模型生成对应的文本描述。这样,通过多模态模型融合不同信息源,实现高效的信息检索与存储。
-
粗暴的直接转换:直接将文档内容通过 VRM 转换为文本格式,虽然实现简单,但在某些复杂情况下,效果可能不如精细化处理。
-
图像直接转化为张量:将文档中的图像直接转换为张量并存储,这种方法适用于复杂的图形数据(如流程图、柱状图等),在处理这类数据时,直接使用张量表示比文本转换更为有效。
扫码入群参与讨论

✅ 对分享有疑问?群里问!
✅ 老师在线解除疑惑!
✅ 有心得体会想分享?群里聊!
扫码入群参与讨论

总结

RAG 作为一种先进的检索增强生成技术,正处于快速发展的阶段。通过参数化记忆机制,RAG 能够解决许多传统检索方法中的语义鸿沟问题,使得检索更加智能化和高效化。在未来,RAG 不仅将在智能体系统中扮演核心角色,还将在各类多模态数据处理和检索任务中发挥重要作用。
随着技术的不断进步,RAG 将在未来几年内成为检索和生成领域的重要基础设施,推动智能体和大规模数据处理的进一步发展。


