大模型的“照妖镜”来了,让RAG来治治AI的“胡说八道” RAG技术 前沿技术 新闻资讯 5月23日 编辑 charles 取消关注 关注 私信 当AI开始“一本正经的胡说八道” 相信很多人在使用类似DeepSeek等大模型时,经常会遇到一种情况即使它会一本正经的胡说八道。举个例子:某个AI面试官在面试人员提问“公司加班文化如何”时,它竟然一本正经的编造了不存在的福利政策。 这种幻觉式回答,正是大语言模型(LLM)的一个致命软肋,它就像一个数学非常好的学霸,在做计算题时,来了个明显的计算翻车。这次我们要看的是RAG(检索增强生成)如何让AI变得不那么 傻的。 大模型的“幻觉”由来 所谓知己知彼百战百胜,我们先来了解一些大模型的“幻觉”,它主要来自两个硬伤: 知识截断:模型只见过训练数据,对于训练集之外的信息一概不知道,比如某个大模型在23年训练完后,它永远不会知道24年的世界杯冠军是谁 2.概率游戏:语言模型的本质是预测下一个词的概率,当面对一些开放性问题时,它可能会“拼凑”出看似合理但是完全错误的答案。 RAG出现,给AI装上“搜索引擎” 如果说传统的大模型是闭门造车,RAG就是给他接上了网线,让它可以更多的接触外界事物。当用户提问时,系统会从外部的知识库(文档、数据库)中查找相关信息;将检索到的内容作为上下文,输入语言模型来生产最后的答案。比如说,当用户提问“特斯拉最新的车型续航多少公里?”RAG就会先从官网或者新闻库中获取到最新数据,再让模型基于这些事实生成答案,而不是胡乱猜测。用过腾讯元宝的可能注意到过,它在选择大模型的同时还能选择联网,大概率也是这样。不过目前国内的网络环境也是存在一些垃圾信息,比如说你查个某某官网,出来一堆的广告,这些可能也会影响最终的回答结果。所以对于知识库的建立也是非常的必要 RAG的三大“杀手锏” 传统的大模型知识截止于训练数据的节点,而RAG可以动态更新知识库,比如金融领域,政策法规每天都在变化,RAG能保证AI与时俱进;RAG不仅能生成答案,还能告诉你答案来源;相比重新训练大模型,RAG只需要优化检索模块和提示工程,成本更低、响应更快。 RAG的出现,正在推动AI从“记忆型”向“认知型”进化,多模态检索,为了AI不仅仅能读取文字,还能查看图片、视频,构建更丰富的知识网络;通过用户的反馈实时调整检索策略,让AI变得更聪明;本地化部署及本地化知识库,能让企业数据在协作中不泄露,同时还能使用权限来控制用户的查阅权限。 大模型的幻觉问题并非无解,关键在于我们是否给它配备了稽查员RAG,现在很多企业都在使用大模型和RAG来搭建自己的本地环境。你们的吐纳对是否也在进行RAG的落地呢?