大模型的“照妖镜”来了，让RAG来治治AI的“胡说八道”

当AI开始“一本正经的胡说八道”

相信很多人在使用类似DeepSeek等大模型时，经常会遇到一种情况即使它会一本正经的胡说八道。举个例子：某个AI面试官在面试人员提问“公司加班文化如何”时，它竟然一本正经的编造了不存在的福利政策。

这种幻觉式回答，正是大语言模型（LLM）的一个致命软肋，它就像一个数学非常好的学霸，在做计算题时，来了个明显的计算翻车。这次我们要看的是RAG（检索增强生成）如何让AI变得不那么傻的。

大模型的“幻觉”由来

所谓知己知彼百战百胜，我们先来了解一些大模型的“幻觉”，它主要来自两个硬伤：

知识截断：模型只见过训练数据，对于训练集之外的信息一概不知道，比如某个大模型在23年训练完后，它永远不会知道24年的世界杯冠军是谁

2.概率游戏：语言模型的本质是预测下一个词的概率，当面对一些开放性问题时，它可能会“拼凑”出看似合理但是完全错误的答案。

RAG出现，给AI装上“搜索引擎”

如果说传统的大模型是闭门造车，RAG就是给他接上了网线，让它可以更多的接触外界事物。当用户提问时，系统会从外部的知识库（文档、数据库）中查找相关信息；将检索到的内容作为上下文，输入语言模型来生产最后的答案。比如说，当用户提问“特斯拉最新的车型续航多少公里？”RAG就会先从官网或者新闻库中获取到最新数据，再让模型基于这些事实生成答案，而不是胡乱猜测。用过腾讯元宝的可能注意到过，它在选择大模型的同时还能选择联网，大概率也是这样。不过目前国内的网络环境也是存在一些垃圾信息，比如说你查个某某官网，出来一堆的广告，这些可能也会影响最终的回答结果。所以对于知识库的建立也是非常的必要

RAG的三大“杀手锏”

传统的大模型知识截止于训练数据的节点，而RAG可以动态更新知识库，比如金融领域，政策法规每天都在变化，RAG能保证AI与时俱进；RAG不仅能生成答案，还能告诉你答案来源；相比重新训练大模型，RAG只需要优化检索模块和提示工程，成本更低、响应更快。

RAG的出现，正在推动AI从“记忆型”向“认知型”进化，多模态检索，为了AI不仅仅能读取文字，还能查看图片、视频，构建更丰富的知识网络；通过用户的反馈实时调整检索策略，让AI变得更聪明；本地化部署及本地化知识库，能让企业数据在协作中不泄露，同时还能使用权限来控制用户的查阅权限。

大模型的幻觉问题并非无解，关键在于我们是否给它配备了稽查员RAG，现在很多企业都在使用大模型和RAG来搭建自己的本地环境。你们的吐纳对是否也在进行RAG的落地呢？

{{userData.name}}已认证

大模型的“照妖镜”来了，让RAG来治治AI的“胡说八道”

BM25：RAG中的文本相关性排序

RAG 外挂知识库