AIOps探索：分享一套保障100%准确率的告警知识检索方案

研究AIOps已有数月，目前手里有不少可落地的方案了，接下来会把这些方案全部整理到我的大模型课程里。欢迎大家把你遇到的场景在评论区留言。我会在能力范围内给你提供思路和建议。

经常看我公众号的朋友应该知道，这段时间我整理了很多关于AIOps的一些感想，同时也了解到了不少企业或者团队遇到的问题。其中最为典型的问题就是关于告警以及根因分析。

可能对于小规模应用或者平台来说，问题很好解决，因为体量不大，系统复杂度也非常简单，问题就很容易定位。然而，大规模应用所产生的海量告警信息以及复杂的系统架构要想做问题定位是非常难的！这个也是我们不得不做AIOps的一个根本原因。

今天这篇文章给大家提供一个解决海量告警问题的新思路 —— 利用静态DAG赋能多模态问答。

– 什么是DAG –

DAG是“Directed Acyclic Graph”的简称，中文叫“有向无环图”。

可以拆成三部分理解：

–DAG如何赋能多模态问答 –

1. 传统RAG方法的局限性

传统RAG常用的“统一检索+一次性生成”流程，在面对运维领域复杂问题时，往往难以满足精准诊断与高效解决的需求，我总结了三点：

1）缺乏结构性：无法对复杂问题进行有效拆解，容易遗漏关键信息，导致回答不全面或不准确。

2）不适用于多跳问题：面对需要多步骤推理和多次信息检索才能解决的问题（即“多跳问题”），传统RAG难以应对。例如，当数据库出现连接超时告警时，传统方法难以一步到位地给出解决方案。

3）难以处理模态切换：运维数据不仅有文本，还包括图片（如告警截图、设备图纸）、表格（如配置清单）等多种模态。传统RAG在处理跨模态信息时存在困难。例如，当一个告警包含一张CPU使用率飙升的监控图时，传统方法难以有效结合图像信息进行诊断。

基于静态DAG的RAG新规划范式能将复杂运维问题进行结构化拆解，分解为多个可执行的子问题，同时预先明确子问题间的依赖关系，构建出清晰的DAG，为问题解决搭建系统化框架。

它与业界已有的动态规划方法不同。传统的动态规划通常采用线性、动态调整的路径，效率较低，且容易在多轮交互中出现“意图偏离”的问题。而静态DAG规划则通过预先定义清晰、可并行的任务流，从根本上提升了复杂问题处理的效率和准确性。

基于静态DAG的RAG规划方法为智能运维带来了显著的提升。其核心流程如下：

AIOps探索：分享一套保障100%准确率的告警知识检索方案

① 用户提出问题：接收用户输入的复杂运维问题，例如“告警服务器风扇报警后应采取哪些维修措施？”

② LLM进行DAG规划：大型语言模型根据问题的复杂度和类型，将其结构化拆解成多个子问题，并梳理出它们之间的依赖关系。

③ 多模态执行检索：根据每个子问题的具体内容，选择最合适的模态进行检索。例如，查询拆机操作步骤是文本检索，而查看服务器图纸则是图像检索。

④ 答案整合与输出：将所有子问题的检索结果进行整合，并根据预设的依赖关系，最终生成完整的、可解释的答案。

– 静态DAG的卓越性能 –

给大家展示一组真实对比数据吧：

数据来源于一个针对多模态多跳问答数据集的实验，基于静态DAG的方法取得了显著的优势。

相比其他方法，该方法在ExactMatch（回答与标准答案是否完全一致）和F1Score（回答与标准答案的词级重合度）两项关键指标上均表现优异，充分证明了其在解决复杂多模态运维问题方面的准确性。

– 方案来源 –

该方案由一家专门做智能运维场景解决方案的公司（擎创科技）提供。

该公司将大模型技术应用于告警排查领域，构建了L1-L3三层智能告警排查与人机协同诊断框架，这一框架不仅实现了告警的自动化处置，更通过多智能体协作，深入排查故障根因，为运维人员提供了精准的决策支持。

1）L1自动化处置层：针对最常见、最简单的告警，实现自动化处置和效率最大化，通过预设规则匹配和自动化执行（如重启、清理等），快速恢复系统正常运行。

2）L2多源知识检索分析层：当规则无法解决时，L2层利用RAG新范式（基于静态DAG）和大模型能力，为运维人员提供智能分析和决策支持，通过多源知识库检索，快速定位相似告警和处置方案，提升排查效率。

3）L3人机交互式诊断层：针对最复杂、最未知的疑难杂症，L3层通过人机协同方式，结合AI的计算能力和专家的经验智慧，进行深入的问题分析和根因诊断。多轮探索式对话，引导专家逐步逼近真相，实现精准故障定位。

在擎创科技方案中，多智能体协同构建高效智能运维生态，智能体作为智能助手，能够根据人工指令快速排查问题，提供指标查询、日志分析等服务，并对当前告警进行初步判断与建议。同时，另有智能体专注于深度排查与根因推理，综合多维度信息与证据，进行系统化分析，精准定位故障可能根因。

– 成功案例 –

擎创科技的解决方案已在多个行业得到了成功应用，以下是一些典型案例：

案例一

在某头部城商行的产品完整性和基础设施根因定位场景中，擎创科技利用大语言模型，AI Agent及FUNCTIONCALL等前沿技术，实现了精准、快速的故障定位，通过模拟告警接入和L1-L3路径分析，运维人员能够流畅且准确地完成根因定位工作，处理效率得到了90%以上的显著提升。

案例二

某中腰部券商在探索大模型赋能知识运维应用的过程中，通过L1-L3三层架构，该企业成功实现了告警接收、关联CMDB、处置规则匹配以及自动化执行等功能的无缝串联，从而显著提升了整体的运维效率。

{{userData.name}}已认证