阿里RAG全链路评估框架之CoFE-RAG


CoFE 论文学习

CoFE-RAG是一种面向检索增强生成(RAG)系统的全链路综合评估框架

研究背景与动机


RAG著提升了回答的准确性与可靠性,有效缓解了传统生成模型中的幻觉问题。然而,现有RAG评估方法存在三大核心挑战

Ø 数据多样性不足:知识来源和查询类型的多样性不足限制了RAG系统的适用性。【现有评价方法的外部知识库基本来源于从HTML中抓取的格式良好的纯文本,缺乏数据多样性,难以纳入PDF等复杂文档。此外,这些方法主要侧重于简单的查询】

Ø 问题定位模糊:多数方法仅评估端到端结果,难以定位RAG流程中具体阶段(如分块、检索、重排序、生成)的问题。

Ø 检索评估不稳定:依赖黄金片段标注,当分块策略变更时需重新标注,成本高昂。

为系统性解决上述问题,本文提出 CoFE-RAG,实现对RAG全流程的可解释、高效、稳定评估。

阿里RAG全链路评估框架之CoFE-RAG

CoFE-RAG 框架设计


核心思想:多粒度关键词驱动评估

CoFE-RAG引入多粒度关键词替代传统黄金片段标注,实现对检索与重排序阶段的免标注评估。

粒度


定义


作用


粗粒度关键词


从查询与上下文中提取的核心主题词(如智能汽车

初步筛选相关片段

细粒度关键词


每个信息点对应的原文片段列表(如政策目标、时间节点)

精细评分与验证

阿里RAG全链路评估框架之CoFE-RAG

全链路评估流程

阿里RAG全链路评估框架之CoFE-RAG

1. 文档收集与解析

– 来源:开源网站(金融、科技、医疗、互联网等领域)

– 格式:PDF、DOC、PPT、XLSX

– 时间跨度:主要为近年文档,部分为2024年,超越GPT-4等模型知识截止日期

2. 文档分块与标题补全

– 使用 LlamaIndex(PDF/DOC/PPT)和 Pandas(XLSX)进行内容提取

– 分块大小:512 tokens,重叠100 tokens

– 利用 GPT-4 从首片段提取关键信息作为标题,附加至各片段以增强上下文连贯性


3. 评估数据构建

数据构建过程包括查询生成、多粒度关键词生成和参考答案生成

数据构建三要素如下表

要素


方法


质量控制


查询生成


GPT-4  自动生成四类查询(见表2

1)查询必须清晰、准确、无语法错误,避免使用模棱两可的代词,如heitthis;

2)查询必须与其各自查询类型的定义保持一致;

3)查询应可从相应文档片段中提供的信息推断出来。然后,我们聘请训练有素的注释者来评估(人工评估)每个查询的可接受性。仅当查询完全符合所有条件时,才被视为可接受的查询。

多粒度关键词


GPT-4  提取粗/细粒度关键词

人工评估

细粒度关键词接受率 >80%

参考答案


GPT-4  生成 + 人工评分(1–5分)

仅保留评分 ≥4 的高质量答案

四类查询定义与示例如下表

类型


描述


示例


Factual(事实型)

寻求具体事实或证据

美国的首都是哪里?

Analytical(分析型)

寻求概念或现象的分析

地球为何变暖?

Comparative(比较型)

寻求不同维度的对比

“AB有何区别?

Tutorial(教程型)

寻求任务执行步骤

如何安装TensorFlow


4. 评估指标

评估指标设计(按阶段划分)

阶段


指标


说明


分块


通过关键词匹配间接评估

检索


Recall,   Accuracy

基于多粒度关键词匹配计算

重排序


Recall,   Accuracy

同上,评估重排序后Top-K效果

生成


BLEU,   Rouge-L, Faithfulness, Relevance, Correctness

多维度评估生成质量


核心贡献总结


维度


贡献


方法论创新


提出多粒度关键词机制,摆脱对黄金片段的依赖,支持灵活分块策略

评估全面性


实现RAG全流程(分块检索重排序生成)可解释评估

数据多样性


构建包含多格式文档、四类查询、中英文双语的综合性基准数据集

实用性提升


支持自动化标注+人工审核,兼顾效率与质量,适用于真实系统优化


总结

优点和局限性总结


优点:

  • 全链路评估

    创新点:首次系统性地将RAG流程划分为 chunking → retrieval → reranking → generation 四个阶段,并分别设计评估方法。

好处:可以精确定位系统瓶颈,避免“黑盒”式评估,提升优化效率。

  • 多粒度关键词

创新点:用“粗粒度关键词”+“细粒度关键词”替代传统的“golden chunk”标注方式。

好处:无需为每个chunk打标签,降低人工成本、支持灵活调整chunking策略,避免重新标注

  • 多样化数据场景

创新点:构建了覆盖 PDF、PPT、DOC、XLSX 等多种文档格式的知识库

好处:更贴近真实应用场景,支持 factual / analytical / comparative / tutorial 四类查询,覆盖更广的用户需求

局限性:

  • 评估指标偏传统

    检索阶段仍使用Recall/Accuracy,生成阶段使用 BLEU/Rouge/等。 计算存在一定的局限性,只通过字词的共现来评估,缺乏语义层面的评估

  • 多粒度关键词的泛化能力未知

    虽然避免了golden chunk依赖,但关键词本身是否足够鲁棒、是否能覆盖所有查询类型仍待验证、对于高度抽象或跨段落推理的查询,关键词可能难以捕捉完整语义。

  • 评估没有考虑多轮对话等复杂场景

    当前评估是单次检索+生成的静态流程。未涉及多轮对话、动态检索等复杂场景的评估

前沿技术大模型技术新闻资讯

告诉你如何免费使用GLM5,MiniMax2.5,kim2.5(教程)

2026-4-7 0:07:53

前沿技术大模型技术新闻资讯

OpenAI 开发者的 Skill 经验:如何使用评估系统来优化 Skill

2026-4-7 0:59:07

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
购物车
优惠劵
搜索