
内容大纲
-
幻觉产生的原因 -
训练数据问题 -
微调新知识 -
幻觉检测 -
检索增强式评估 -
基于采样的检测 -
对未知知识进行校准 -
间接查询 -
反幻觉方法 -
RAG → 编辑和归因 -
动作链 -
针对归因进行微调 -
针对事实性进行微调 -
采样方法 -
附录:评估基准
2.1 检索增强评估
为量化模型的幻觉现象,Lee等人2022年的文章<<Factuality Enhanced Language Models for Open-Ended Text Generation>>推出了一个新的基准数据集FactualityPrompt,该数据集包含事实性和非事实性提示。该数据集以Wikipedia文档或句子作为事实性验证的知识库。这些Wikipedia文档是从FEVER数据集中挑选的已知的真实信息,而句子则是基于tf-idf或句子嵌入相似度选择的。

-
命名实体(NE)幻觉错误率:该指标利用预训练的实体检测模型和文档级事实性验证,衡量检测出的命名实体中未出现在真实文档中的比例。 -
蕴含关系比率:该指标使用在MNLI数据集上微调过的RoBERTa模型,并结合句子级知识验证,计算生成句子中被蕴含模型判定为与对应Wikipedia句子相关的比例。
-
非上下文LLM:直接向LLM提出“<原子事实>是否正确?”的提示,而不提供额外上下文; -
检索→LLM:从知识源中检索相关段落作为上下文进行提示; -
非参数概率(NP):通过掩码语言模型计算原子事实中标记的平均似然度,并据此进行预测; -
检索→LLM + NP:结合上述两种方法;
-
在传记生成任务中,罕见实体的错误率更高。 -
生成过程中后提及的事实的错误率更高。 -
使用检索技术为模型生成提供事实基础能显著减少幻觉现象。
Wei等人(2024年的文章Long-form factuality in large language models)提出了一种名为SAFE(Search-Augmented Factuality Evaluator,搜索增强事实性评估器;附有代码)的评估方法,用于检查大型语言模型(LLMs)生成长文本的事实性。
与FActScore相比,SAFE的主要区别在于,对于每个独立且具体的原子事实,SAFE采用语言模型作为代理,在多步骤过程中迭代地发出Google搜索查询,并推断搜索结果是否支持该事实。在每个步骤中,代理会根据要检查的事实以及先前获得的搜索结果生成搜索查询。经过多个步骤后,模型会进行推理,以确定搜索结果是否支持该事实。
实验表明,SAFE方法的表现优于人类标注者,尽管其成本仅为人类标注者的二十分之一:SAFE与人类标注者的同意率高达72%,在双方意见不一致的情况下,SAFE的胜率更是高达76%。


-
断言提取:通过提示大型语言模型(LLMs),提取所有可验证的断言。 -
查询生成:将每个断言转换为适合外部工具使用的查询列表,如搜索引擎查询、单元测试用例、代码片段和论文标题。 -
工具查询与证据收集:利用外部工具(如搜索引擎、代码解释器、Google Scholar等)进行查询,并获取结果。 -
一致性验证:根据外部工具提供的证据支持程度,为每个断言分配一个二进制事实性标签。

2.2 基于采样的检测
SelfCheckGPT(Manakul等人,2023年,SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models)依赖于对来自黑盒大型语言模型(LLM)的多个样本进行事实性错误的一致性检查。鉴于灰盒事实核查测量需要访问LLM的标记级对数概率,SelfCheckGPT仅需要不依赖于外部知识库的样本,因此仅通过黑盒访问即足够,无需外部知识库。

2.3 对未知知识进行校准
当模型被要求回答无法回答或未知的问题时,可能会产生幻觉(即生成不准确或错误的信息)。为了衡量模型在这种情况下生成真实回答的能力,TruthfulQA(Lin等人,2021年,TruthfulQA: Measuring How Models Mimic Human Falsehoods)和SelfAware(Yin等人,2023年,Do Large Language Models Know What They Don't Know?)是两个重要的基准测试。前者是通过对抗性构建来强调人类常见的错误,而后者则包含了一些因其本质而无法回答的问题。面对这些问题,模型应该拒绝回答或提供相关信息。

Yin等人(2023年,Do Large Language Models Know What They Don't Know?)研究了自我认知的概念,即语言模型是否能够知道自己知道什么以及不知道什么。他们构建了一个名为SelfAware的基准测试集,其中包含五个类别的1032个无法回答的问题和2337个可回答的问题。无法回答的问题来源于带有人工标注的在线论坛,而可回答的问题则是基于与无法回答问题的文本相似性,从SQuAD、HotpotQA和TriviaQA等数据集中选取的。一个问题可能因多种原因而无法回答,例如缺乏科学共识、对未来的想象、完全主观的表述,以及可能产生多种回应的哲学原因等。如果将区分可回答与无法回答的问题视为一个二分类任务,我们可以通过测量F1分数或准确率来评估模型的表现。实验结果表明,规模更大的模型在这一任务上表现更佳。


-
用文字或词语表达的置信度(例如“最低”、“低”、“中”、“高”、“最高”),如“置信度:60% / 中等”。 -
答案标记的归一化对数概率(注意,在微调实验中未使用此类型)。 -
原始答案后间接给出的“正确/错误”标记的对数概率。

2.3 间接查询
Agrawal等人(2023年,Do Language Models Know When They're Hallucinating References?)专门研究了大型语言模型(LLM)生成中虚构引用的情况,包括捏造的书籍、文章和论文标题。他们试验了两种基于一致性的方法来检查虚构内容,即直接查询与间接查询。这两种方法均在T > 0时多次运行检查并验证一致性。


