-
切块、清洗、烹饪:RAG知识库构建的三步曲
嘿,各位AI技术爱好者们,你是不是经常遇到这样的情况:辛辛苦苦训练的AI助手,面对专业问题时却"一问三不知"或者"胡言乱语"?明明你已经喂了它一堆PDF和Word文档,为啥它就是不会用?就像你去米其林餐厅,厨师拿着一堆未处理的食材直接上桌一样荒谬!没错,RAG系统也需要一个"厨房",而文档处理与知识库构建,就是这个厨房里最重要的"…- 0
- 0
-
终结 “闭卷考试”:RAG 如何从根源上构建可信的AI应用
在上一篇《与 AI 的 “幻觉” 作战》里,我们聊到一个扎心的现实:当AI像一面失真的 “镜子”,即便我们掌握了 “提问” 这把终极杠杆,撬起来的也可能是 “一本正经的胡说八道”。幻觉,这个大模型与生俱来的 “认知缺陷”,至今仍是企业将AI落地到客服、医疗、金融等关键场景的最大拦路虎 —— 没人敢用一个随时可能编造数据的 AI 来回答客户疑问,更别提辅助诊断或生成合同了。当时我们留下了一个 “系统…- 0
- 0
-
你的RAG应用为什么总“胡说八道”?这份21项优化自查清单,帮你根治AI幻觉
关注我,让我的实验,成为你的经验。 大家好,我是dify实验室的超人阿亚。 你是否也经历过这样的“社死”瞬间:信心满满地向老板或客户演示你搭建的智能知识库问答机器人,结果它面对一个简单的问题,却给出了一段看似专业、实则完全捏造的答案。场面一度十分尴尬,你开始怀疑人生:“我明明把所有资料都喂给它了啊!” 别灰心,你不是一个人在战斗。RAG应用中的“幻觉”问题,是每个AI应用开发者都会遇到的拦路虎。今…- 0
- 0
-
运用 Elasticsearch 进行向量搜索及创建 RAG 应用
导读 Elasticsearch 目前是世界上最大的搜索引擎,在 ToB 业务中应用广泛,携程、抖音、滴滴等平台的搜索引擎都基于此构建。本文介绍会围绕以下五方面展开:1. 智能时代的搜索需求2. Elasticsearch 向量搜索及最新进展3. RAG 实现原理4. 使用 Elasticsearch 在企业搜索中的案例分享5. 附录信息分享嘉宾|…- 0
- 0
-
通过两个案例,看RAG如何解决大模型的“知识短板”
大模型和RAG一样,都是针对用户的问题,给出答复,那么,为什么有问题不直接问DeepSeek,还要跑一遍RAG?RAG的出现,从根本上解决了大模型在处理知识时的一个核心痛点:如何高效、准确且低成本地利用那些未训练过的、私有的或最新的知识来回答问题。如果我们希望大模型根据某些特定的知识内容生成答案,就必须将这些知识提供给模型。似乎我们可以把这些知识全部发送给模型,但实际上并不可行一方面,大模型本身的…- 0
- 0
-
给AI装上一个'超级大脑':信息检索如何改变RAG系统的游戏规则
你是否有过这样的经历?问AI一个问题,它能自信满满地回答,但你稍微验证一下就发现——"这个回答完全是编造的"。没错,这就是当今大模型的典型特点:看似无所不知,实则可能自信地胡说八道。这个问题该怎么解决?今天我们就来聊聊如何给AI装上一个"超级大脑"——通过RAG(检索增强生成)系统中的核心技术:信息检索!当AI成为了"自信的编造者"想象一…- 0
- 0
-
别让你的RAG“吃”垃圾数据了!从源头构建高质量知识库的深度文档解析指南
最近有个群友问了我一个问题,非常有代表性。他刚接触RAG,跟着网上的教程,用LangChain框架快速搭起了一套问答系统。他用框架自带的PyPDFLoader加载了公司的几份PDF报告,流程跑通了,但一测试就傻眼了:模型的回答质量极低,各种回避问题、事实错误。这个问题我深有体会。它指向了一个常常被我们忽视,但却至关重要的环节。我在早期实践RAG时,也曾困在这个瓶颈上。当时我只顾把精力都放在了Pro…- 0
- 0
-
别再说你的RAG召回率不行,都怪你文档处理的太差——别拿文档处理是难点当借口
“ 在RAG系统中,业务比技术更重要;好的业务和设计能大大减少你的工作量,并提升召回率。”在刚开始做RAG的时候,认为RAG很简单;虽然说文档处理是一个难点,但那也是没办法的事,毕竟这玩意在业界就是一个难点;但随着这段时间做RAG的数据处理和优化才发现事情远远没有自己想的那么简单。虽然说复杂文档处理是一个难点,但那并不是你做不好RAG的理由;原因就在于你根本没有弄明白,怎么才能做好一个R…- 0
- 0
-
【RAG的16种玩法】反馈闭环、自适应检索增强(中)
09反馈闭环 在构建高质量的检索增强生成系统(RAG)时,我们常常调到一个关键:当前知识库和检索流程都是静态的,无法根据用户使用过程中的真实反馈进行优化和调整。因此,需要引入一种持续改进的机制【反馈闭环】。什么是反馈闭环?在 RAG 系统中设计一套机制,收集用户对回答内容的反馈(如点击、评分、点赞、修改建议等),并基于这些数据不断优化检索策略、知识库内容和生成质量。目的:提高问答系统的准…- 0
- 0
-
在RAG文档处理中——怎么处理噪音问题
“ RAG文档处理的原则是找出有效数据,剔除无效数据,而不是为了大而全整一堆没用的数据。”在RAG增强检索中,文档处理是重中之重,但是很多人的文档处理做的很粗糙,然后还奇怪为什么我的RAG质量不好,召回率太低,原因就在于你的文档处理真的不咋地。虽然说现在的文档处理是大模型应用中的一个难点,但既然用了那就要想办法把它做好,因此我们现在需要考虑的不是文档处理有多复杂,而是应该考虑怎么提升文档…- 0
- 0
-
RAG知识库十大误区 和 提高准确率示例
一、RAG 实践中的十大误区在 RAG 技术落地过程中,无论是数据处理、检索策略设计,还是模型适配、系统优化,都存在易被忽视的关键问题,这些误区可能直接导致系统性能下降、资源浪费,甚至项目失败。以下为实践中常见的十大误区:误区一:忽视数据质量,盲目堆砌知识库内容部分使用者认为 “知识库规模越大,RAG 效果越好”,因此在构建知识库时,未对数据进行筛选与清洗,将低质量、重复、无关的信息大量导入。例如…- 0
- 0
-
别再只会向量检索!16 个 RAG 高阶玩法曝光(上)
RAG = “外挂知识库 + 动态提示”,让大模型实时查资料再回答,解决幻觉和知识过期。我把压箱底的 16 个 RAG 杀招一次性掏出来!上半部先讲 8 个,覆盖向量召回、混合检索、重排序、多模态等最新套路。01简单切块 通过简单的文本分块和相似度匹配来查找相关内容。具体的步骤如下:①准备原始文档北京是中国的首都,有着悠久的历史和丰富的文化。北京有很多著名的景点,比如故宫、天安门广场、颐…- 0
- 0
-
基于RAG的工业品商品智能推荐
背景 MRO 工业品是企业生产运营中不可或缺的一类物资,核心是为保障生产设备正常运转、维持企业日常运营提供支持,而非直接用于生产最终产品的原材料或零部件。其名称源于英文 “Maintenance(维护)、Repair(维修)、Operations(运营)” 的缩写,本质是 “非生产性采购物资”。 目前我国 MRO 市场还处于由传统零散采购向集约化…- 0
- 0
-
DeepMind爆火论文:向量嵌入模型存在数学上限,Scaling laws放缓实锤?
极市导读 在做 RAG 或搜索引擎时,你是否也遇到过:模型明明很大,但关键资料就是召不全?DeepMind 的最新研究给出了答案 —— 向量嵌入存在理论瓶颈。这意味着单靠“加维度、加数据、加模型”并不能解决问题,未来检索与生成系统可能需要全新的架构思路。 >>加入极市CV技术交流群,走在计算机视觉的最前沿这几天,一篇关于向量嵌入(Vector Embedd…- 0
- 0
-
在企业开发中——RAG技术常见的问题以及解决方案
“ RAG的本质就是快速和准确的召回文档,但由于各种原因会导致其召回质量不尽人意,因此我们需要从多个方面来优化其召回结果。”虽然说现在大模型的主流应用方向是智能体——Agent;但也不能否则RAG在其中扮演的重大作用,因此RAG也是企业应用场景中经常用到的技术。但RAG虽然看起来很简单,但事实上存在很多问题和坑;还是那句话想把RAG做出来很简单,但想把RAG做好就很难。以作者自身遇到的问…- 0
- 0
-
从原理到落地:RAG 技术全解析,手把手教你搭建专属知识库
从原理到落地:RAG 技术全解析,手把手教你搭建专属知识库当你用 ChatGPT 查询 “2024 年最新税收政策” 时,它可能会告诉你 “我的知识截止到 2023 年 10 月”;当企业想用 AI 解答内部规章制度时,又担心敏感数据泄露 —— 这些问题,RAG 技术都能解决。作为分析式 AI 的核心应用之一,RAG(检索增强生成)通过 “检索外部知识 + 增强模型生成” 的模式,完美弥补了大模型…- 0
- 0
-
RAG效果不佳?先别急着微调模型,这几个关键节点才是优化重点
本文深入探讨了RAG(Retrieval Augmented Generation)技术的实现细节与优化策略,指出在AI应用开发中,RAG常被视为黑盒导致问题定位困难。文章从文档分块(Chunking)、索引增强(语义增强与反向HyDE)、编码(Embedding)、混合检索(Hybrid Search)到重排序(Re-Ranking)等关键环节进行了详细解析,强调需结合具体场景对各模块进行调优,…- 0
- 0
-
涌现观点|RAG评估的"不可能三角":当独角兽公司因AI评估失误损失10亿美元时,我们才意识到这个被忽视的技术死角
开篇:一次价值10亿美元的教训那个让硅谷震动的凌晨电话2024年2月的一个凌晨,一通紧急电话打破了联合健康集团(UnitedHealth Group)CEO的宁静夜晚。电话那头传来的消息让这位见惯大风大浪的商界领袖瞬间清醒:他们的核心AI系统Change Healthcare遭遇勒索软件攻击,整个美国医疗支付体系陷入瘫痪[1]。这不是一次普通的网络攻击。Change Healthcare作为美国最…- 0
- 0
-
RAG2.0进入“即插即用”时代!清华YAML+MCP让复杂RAG秒变“乐高”
检索增强生成系统(RAG)正从早期“检索+生成”的简单拼接,走向融合自适应知识组织、多轮推理、动态检索的复杂知识系统(典型代表如 DeepResearch、Search-o1)。但这种复杂度的提升,使开发者在方法复现、快速迭代新想法时,面临着高昂的工程实现成本。基于 Model Context Protocol (MCP) 架构设计的 RAG 框架。这一设计让科研人员只需编写 YAML&…- 0
- 0
-
利用RAG构建智能问答平台实战经验分享
目前公司的智能问答平台利用RAG技术构建,现给大家分享下通RAG技术构建智能问平台的具体流程和原理。一、什么是RAGRAG是检索增强生成技术(Retrieval-Augmented Generation),目前是构建智能问答的重要技术。RAG相比传统的检索可以可以减少幻觉;支持知识动态更新等优点,是现在企业和个人打造知识库的重要架构和技术。核心包括以下2点:1、数据准备阶段包括:数据收集及清洗——…- 0
- 0
-
RAG如七夕,鹊桥大工程:再看文档解析实际落地badcase
今天是2025年8月29日,星期五,北京,雨,8月份的最后一个工作日我们来看两个话题,一个是RAG,一个是文档解析。RAG如七夕,鹊桥大工程,做个比喻,加深印象。文档解析上,还是从使用角度出发, 总结一些问题以及对应的产生逻辑、应对思路。多总结,多归纳,多从底层实现分析,会有收获。一、RAG如七夕,鹊桥大工程今天是七夕节,在社区做了个一个很形象的比喻。七夕搭桥,可以类比RAG,为了让q跟chunk…- 0
- 0
-
基于智能体增强生成式检索(Agentic RAG)的流程知识提取技术研究
在工业设备维护、工程操作指导等领域,传统技术手册多以非结构化文本、图表混合形式存在,难以直接被人工智能系统或机器人解读。将这些“ legacy 维护手册”转化为机器可读取的结构化流程,成为提升工业效率的关键需求——而精准的流程知识提取(Procedure Knowledge Extraction)技术,正是实现这一目标的核心路径。本文基于新加坡管理大学(SMU)商业信息技术硕士项目中“生成式AI与…- 0
- 0
-
RAG 为何能瞬间找到答案?向量数据库告诉你
了解 Hierarchical Navigable Small World (HNSW) 算法如何为当今的 RAG 系统提供动力Retrieval-Augmented Generation (RAG) 是为 Large Language Models (LLMs) 添加外部知识的重要工具。几乎每个 RAG 系统都包含一个向量数据库,用于执行 semantic search。在这种搜索中…- 0
- 0
-
寻找RAG通往上下文工程之桥:生成式AI的双重基石重构
序:当知识不再“固态”——AI进入上下文时代你是否曾遇到这些问题:• AI的回答听起来像真的一样,但仔细一查却是假的?• 提问再多遍,它都只会重复同一套说辞?• 想让它解释一个专业概念,结果讲得和外行一样模糊?这正是生成式AI在企业应用中最现实、最痛彻的问题。它们的核心局限,不是不会表达,而是没有足够新鲜的事实支撑,也没有足够明确的意图引导。于是我们看到了两个方向的崛起:检索增强生成(RAG)&n…- 0
- 0
❯
购物车
优惠劵
搜索
扫码打开当前页

联系我们
返回顶部
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!



















