全部标签

新闻资讯

让RAG像人类一样“扫视全文”：上下文检索技术详解

尽管大语言模型本身的能力在快速演进，但它依然无法凭空获取训练数据之外最新或专有知识。检索增强生成（RAG, Retrieval-Augmented Generation）正是为解决这一问题而生：在回答问题前，先从知识库中检索相关资料，再让模型参考这些资料生成答案。换言之，RAG让大模型从“闭卷考试”变成了“开卷考试”。但“开卷”也不一定更容易。如果检索到的资料不完整、不准确，能力再强的大模型也无法…
RAG技术
- 0
- 0
charles4月11日
Uber 如何利用 OpenSearch 实现十亿级向量搜索

介绍在 Uber，我们的系统每天处理海量数据，涵盖从拼车到外卖的各个环节。我们传统上使用基于关键词的 Apache Lucene ^™^搜索。然而，我们需要超越简单的关键词匹配，转向语义搜索，才能理解搜索背后的含义。为了实现这一目标，我们采用了 Amazon® ^OpenSearch^作为向量搜索引擎。其可扩展性、性能和灵活性是我们做出这一决定的关键因素。这篇博文将探讨我们…
RAG技术
- 0
- 0
charles4月11日
别让大模型在“垃圾堆”里找金子：深度解析 RAG 的上下文压缩技术

在 RAG（检索增强生成）的工程实践中，我们常常陷入一种“囤积癖”式的误区：为了防止漏掉关键信息，我们恨不得把检索到的 Top 20 文档，连同文件名、页码甚至页眉页脚，一股脑塞进大模型（LLM）的 Prompt 里。毕竟，现在的 GPT-4 Turbo 和 Claude 3 都支持 128k 甚至 200k 的上下文，不用白不用，对吧？但这恰恰是导致 RAG 系统“慢”、“贵”、“笨”的元凶。如…
RAG技术
- 0
- 0
charles4月11日
终于，NotebookLM 和 Gemini 合体了。这是什么神之更新？

昨天看到 NotebookLM 的社交账号更新了，NotebookLM 和 Gemini 🤝意思是：现在用户可以直接将笔记本（NotebookLM 里的）上传到 GeminiApp 中。这非常适合：— 整合多个笔记本— 根据笔记本生成图像或者做应用程序— 在现有笔记本的基础上，使用在线深度研究等功能— 还有更多我试了一下，其实 App 还不支持呢，只有 Pro 会员在 Gemini Web 版本里…
RAG技术
- 0
- 0
charles4月11日
Cohere 推出 Rerank 4，将上下文窗口从 8K 扩展至 32K，以交叉编码器架构强化长文档语义理解与跨段落关联捕捉

Cohere 推出的 Rerank 4，核心是将上下文窗口从 8K 扩展至 32K（四倍提升），以交叉编码器架构强化长文档语义理解与跨段落关联捕捉，通过 Fast/Pro 双版本适配不同企业场景，显著提升检索精度并降低 LLM 调用成本。技术突破：上下文窗口扩展与架构优化32K上下文窗口Rerank 4的上下文窗口从Rerank 3.5的8K扩展至32K，扩大四倍。这一突破使其能够处理更长的文档（…
RAG技术
- 0
- 0
charles4月10日
4.1K Star！GitHub 上挖到一个救星级别的 RAG 数据流水线项目！

很多人一开始做 RAG，注意力全在模型上。真正做过项目后才发现 —— 最折磨人的根本不是模型，而是数据处理。一般 RAG 项目里最容易失控的部分：• PDF、Markdown、网页、代码混在一起• 源文件一改，全量重跑 embedding• 跑一次向量化就是钱• 数据清洗、切片、入库脚本散落一地，没人敢动最终结果往往是：“RAG 能跑，但谁都不敢维护。”最近，我在 GitHu…
RAG技术
- 0
- 0
charles4月10日
PageIndex：一种基于推理的 RAG 框架

最近在调研RAG的各种技术，关注到了PageIndex，觉得其思路颇有借鉴意义，故整理下PageIndex相关知识要点。1、PageIndex是什么PageIndex 是一种不依赖向量的、基于推理（reasoning-based）的信息检索框架，用于从长篇、复杂文档中进行知识检索，其设计理念是模拟人类专家阅读和定位信息的方式，通过将文档结构化为树，并让大模型在该结构上进行推理导航，从而实现可解释、…
RAG技术
- 0
- 0
charles4月10日
深度解析丨智能体架构，利用文件系统重塑上下文工程

智能体架构：利用文件系统重塑上下文工程在现代 AI 系统设计的宏伟蓝图中，深度智能体的一个核心特征在于它们能够驾驭一套文件系统工具。通过这些工具，深度智能体得以在文件系统中执行读取、写入、编辑、列出目录以及搜索文件等操作。这不仅仅是功能的堆叠，更是智能体认知架构的一次重要升级。为了理解文件系统的价值，我们必须先审视当下的智能体在哪些环节容易遭遇瓶颈。它们失败通常归结为两个核心原因：模型本身的推理能…
RAG技术
- 0
- 0
charles4月10日
RAG 答非所问？可能是你少了这一步：深度解析 Rerank 与 Cross-Encoder 的“降维打击”

在 RAG（检索增强生成）的调优过程中，很多应用者会遇到一个瓶颈：你换了最好的向量数据库，用了最贵的 Embedding 模型，切分策略也调了无数遍。但当用户问：“秦始皇死在哪一年？”你的 RAG 依然自信地把“秦始皇生于哪一年”的文档喂给了大模型。为什么？因为在向量的世界里，“生”和“死”长得太像了。这时候，你需要引入 RAG 架构中的“特种部队” —— Rerank（重排序）。而它背…
RAG技术
- 0
- 0
charles4月10日
从 RAG 到 Context：2025 年 RAG 技术年终总结

过去的2025年，对于检索增强生成（RAG）技术而言，是经历深刻反思、激烈辩论与实质性演进的一年。尽管围绕其“临时性”与“被替代性”的疑云一直笼罩，但纵观全年发展轨迹，RAG 并未如部分激进观点所预言的那样黯然退场，反而在企业级 AI 落地的深水区中，愈发彰显出其作为数据基础设施的不可替代性。回顾全年，RAG 的发展态势可谓错综复杂：一方面，其实际应用效果面临诸多质疑，部分源于 RAG 系统自身“…
RAG技术
- 0
- 0
charles4月10日
embedding分数不是唯一解！搜索场景，如何根据元数据做加权rerank

01rerank如何影响业务表现今天聊一聊我们如何做高质量rerank。一个常识是，无论企业知识库、电商、新闻，还是RAG、Agent场景，只依靠语义相似度对检索结果进行排名，无疑都是粗暴且低效的。一方面，元数据往往包含了语义、时间、标签、地理位置等多元信息，语义并不总是最重要的那一项；另一方面，用户检索时，往往还需要对数据按照距离远近、好评分数、复购数量等信息进行综合排序。比如：电商：付费/旗舰…
RAG技术
- 0
- 0
charles4月10日
企业AI真瓶颈：不在模型，而在语境！

AI代理因缺乏数据平台运行语境而失败，导致幻觉。编排系统提供血缘、健康等运营记录，是AI可靠性的关键。将编排作为共享语境引擎，可实现准确、可解释的AI。每个人都在争相推出用于数据工作的AI代理。他们希望这些代理能够编写SQL、调试管道、生成测试、自动记录资产并按需提供洞察。这几乎让人感觉数据工程师们一直期待的自助式分析承诺终于实现了。不幸的是，这些部署正在失败，仅仅是因为代理不了解数据…
RAG技术
- 0
- 0
charles4月10日
从 1600+ 份 Word 文档到生产级 RAG：一个工控行业知识库的全链路实战复盘

Agent 这个词，25 年下半年以来已经有点烂大街了。从我下半年聊过的大几十个项目里看，绝大多数企业实际连知识库都还没整明白就去追求 Agent，纯属本末倒置。知识库未必是所有场景的前置条件，但如果你想让工作流和 Agent 真正能用，把散落在多源异构文档、业务专家脑子里的经验沉淀下来，往往是绕不开的基础工作。知识库看起来是个老生常谈的需求，但真正做好并不容易。多源异构的非结构化数据怎么清洗、怎…
RAG技术
- 0
- 0
charles4月10日
短语检索不等于BM25+向量检索｜ Milvus Phrase Match实战

今天还是来继续聊聊做企业级知识库，那些常见的避坑小技巧，这一次的主题是短语检索。如果你做过搜索、日志分析、知识库、RAG，那么你一定被下面这几个场景折磨过：明明日志里有 `connection reset by peer`，就是搜不到？”北京上海” 和 “上海北京” 能不能算一个短语？英文还好说，中文只要分词一错误，检索就直接废掉？RAG 想加“必须包含某短语”的硬条件，向量模型却完全表达不了…
RAG技术
- 0
- 0
charles4月10日
让AI真正懂数据：猫超Matra项目中的AI知识库建设之路

一、背景近年来，人工智能技术正以快速的发展重塑各行各业。大模型(LLM)的突破性进展，使得自然语言理解、生成与推理能力显著提升，AI不再局限于图像识别或推荐系统，而是逐步向复杂决策和自主执行演进。在这一背景下，“Data Agent”成为企业智能化升级的一个探索方向。1.1 数据研发提效：历史积累带来的治理挑战猫超数据资产历经十年建设，已形成规模庞大的数据体系：累计沉淀数万张表、近万个调度节点，…
RAG技术
- 0
- 0
charles4月10日
最新力作：一招提升RAG检索精度20%

把文档先“让LLM写摘要+打标签”，再用混合向量做检索，比直接扔原文进RAG，Top-10命中率从73%干到92%， latency 还更低。下面一起来具体分析：痛点直击企业知识库动辄上千页，传统语义分块+Embedding常“漏答案”人工写标签成本高，且随文档膨胀迅速失控长文档“中间丢失”现象导致LLM幻觉频发方案全景环节传统做法本文做法分块语义/固定长度三套并行：Naive / Recursi…
RAG技术
- 0
- 0
charles4月10日
Apple 入局 RAG：深度解析 CLaRa 框架，如何实现 128x 文档语义压缩？

在当前的检索增强生成（RAG）系统中，我们面临着一个经典的“不可能三角”：上下文窗口的限制、检索准确性与推理效率之间的矛盾。传统的 RAG 往往将检索器（Retriever）和生成器（Generator）作为两个割裂的系统进行优化，导致大量 Token 被粗暴地塞入上下文窗口，不仅造成了计算资源的浪费（Double Encoding），更引入了大量的噪声。近日，Apple 与爱丁堡大学的研究团队联…
RAG技术
- 0
- 0
charles4月10日
客服、代码、法律场景适配：Milvus Ngram Index如何百倍优化LIKE查询| Milvus Week

本文为Milvus Week系列第6篇，该系列旨在把Zilliz团队过去半年多积累的先进的技术实践和创新整理成多篇干货深度文章发布。本系列已发表内容：88.9 倍性能飙升！JSON Shredding 让 JSON 查询告别全表扫描| Milvus WeekStruct Array 如何让多向量检索返回完整实体？知识库、电商、视频通用|Milvus Week语义+R-Tree空间索引：Milvus…
RAG技术
- 0
- 0
charles4月10日
一键把碎片变成有料笔记：NoteGen，一款跨平台的 Markdown 笔记应用

NoteGen 是啥简单说，NoteGen 是一款跨平台的 Markdown 笔记应用（Windows/Mac/Linux 桌面已稳定，移动端在做）。轻量（安装包约 20MB），本地优先，原生用 .md 存储，支持多种记录方式（截图、剪贴、文件、链接等），还能接入 ChatGPT、Gemini、Ollama 等模型，用 RAG 把笔记变成知识库。它解决了哪些痛点• 记录太碎：截图、剪贴…
RAG技术
- 0
- 0
charles4月10日
Embedding模型选型思路：相似度高不再代表检索准确（文末附实战指南）

01之前我分享过一篇文章，也是Embedding模型选型，一年过去了，这个领域变化也比较大。Embedding模型选型思路：决定知识库与RAG的准确率上限！以前我们选择 Embedding 模型往往只看一个指标：MTEB（Massive Text Embedding Benchmark）综合得分。但今年随着 RAG系统的普及，工业界对 Embedding 的要求已经从单一的“语义相似度”演变为对 …
RAG技术
- 0
- 0
charles4月10日
把AI记忆做好，是一个价值6千亿美元的市场

先说一个暴论：AI 记忆正在成为最大商业机会，它是增量价值最明显、但体验最不稳定的一块。2025 年，你买到的很多 AI 产品已经足够聪明了，可一旦你把它放进真实业务，它最容易在一个地方翻车：记忆。这一点在海外Reddit社区上吐槽特别多。例如一个作者记录了 ChatGPT 在长对话里的记忆衰减，做了 11 天观察，核心抱怨是需要反复重建上下文，工作流被打断。再比如，有人抱怨n8n 里的 AI A…
RAG技术
- 0
- 0
charles4月10日
我错了，RAG还没完！AI记忆的结合会成为下一个技术风口

昨天和一个做AI产品的朋友聊天，他说现在做智能体项目时遇到个头疼问题：用户每次都要重新介绍自己的背景，智能体完全记不住之前的对话。这让我突然意识到一个深层次的问题——我们一直在优化智能体的大脑，但却忽视了一个更根本的问题：它有没有记忆？这可能就是当前AI产业最大的认知盲区。技术演进的隐藏脉络大多数人以为AI的发展路线是：简单问答 → 复杂推理 → 多模态理解。但真正推动AI智能体进化的核心驱动力，…
RAG技术
- 0
- 0
charles4月10日
搜索的终极形态？向量搜索重构信息检索范式

传统的基于关键词的搜索引擎擅长匹配精确的词语，但当用户使用不同的词汇、同义词或更复杂的短语来表达意图时，往往力不从心。而语义搜索，通过理解词语背后的含义和语境，而非仅仅关注词语本身，彻底革新了信息检索方式。本指南将探讨语义嵌入如何实现这种强大的搜索功能。什么是语义搜索？语义搜索是一种数据检索技术，旨在理解搜索查询的含义和上下文意图，而不仅仅是匹配关键词。例如，语义搜索引擎不仅会搜索与“汽车”完全匹…
RAG技术
- 0
- 0
charles4月10日
RAG 深度解读：检索增强生成如何改变人工智能

介绍人工智能 (AI) 每年都在变得越来越复杂。像 GPT-4 或 GPT-5 这样的大型语言模型 (LLM) 可以回答问题、撰写论文、总结内容，甚至编写代码。但这些模型存在局限性：他们可能不知道最新的事件，因为他们的训练数据是固定的。他们有时会产生幻觉，产生一些听起来合理但实际上是错误的信息。他们经常对特定领域的知识感到困惑，例如公司政策、医疗指南或法律规则。这就是RAG（检索增强生成）的用武之…
RAG技术
- 0
- 0
charles4月10日