全部标签

新闻资讯

NotebookLM如何在48小时内分析2万份论文？

用AI写地学文献综述：从超大语料到证据链一位 Reddit 法律研究者把 2 万份案件材料（约 100MB）通过 OCR 整合为单一可检索文本，并用 AI 在 20–30 小时内完成原本需要数百小时的线性阅读。这不是“速度更快”的故事，而是“组织方式改变”的故事。把这类方法迁移到地学文献综述，可以显著提升证据管理与研究版图构建的效率。本文在吸收该案例的方法论后，重新组织为地学综述写作路径，重点探索…
RAG技术
- 0
- 0
charles4月14日
多模态文档智能解析最新开源进展：GLM-OCR方法概述

继续跟进【文档智能】解析进展，继《多模态文档智能解析开源进展：针对形变文档优化的PaddleOCR-VL-1.5架构改进点》、《多模态文档智能解析持续开源进展：Youtu-Parsing模型架构、数据、训练方法》等开源后，这周又开源了一个GLM-OCR模型，从技术路线上，仍然是内卷式的重复造轮子，其解析pipeline遵循layout+vlm的两阶段方式，即：layout部分（模型使用的是padd…
前沿技术
- 0
- 0
charles4月14日
基于 Ray 的蚂蚁数据构建引擎在搜推和 RAG 场景的实践

在蚂蚁集团，每一次精准的搜索推荐、每一轮流畅的智能对话背后，都离不开高质量数据的强力支撑。作为蚂蚁智能引擎部的核心技术底座之一，AI 数据构建引擎正持续为全站搜推广系统等关键产品注入“智能血液”。本文整理自 Ray Forward 2025 上蚂蚁集团技术专家谢涛的分享，共包含三个部分：基于 Ray 的海量数据构建提效基于 Ray 的 RAG 算子体系建设下一步展望基于 Ray 的海量数据构建提效…
RAG技术
- 0
- 0
charles4月14日
用AI做深度用户访谈，获蓝驰、高瓴、王慧文投资

「暗涌Waves」独家获悉，一家成立刚不过4个月的AI-Native用户研究平台Trooly.AI已完成近千万美元的种子轮融资，投资方包括蓝驰创投、高瓴创投和王慧文。与市面上无数“超级个体”、“虚拟陪伴”、“碳基硅基共生世界”的宏大叙事不同，Trooly.AI想要用AI实现真实的商业闭环。其核心产品面向有用户调研需求的B端客户，通过多模态Voice Agent技术，专注45分钟左右的深度定性用户访…
前沿技术
- 0
- 0
charles4月14日
面向手机Agent的记忆系统工程:OPPO的Agentic-RAG实战与演进

导读来自 OPPO AI 中心的高级算法工程师余明老师，将分享面向手机 Agent 的记忆系统工程，内容聚焦于手机记忆搜索的实际落地。本次分享题目为《面向手机 Agent 的记忆系统工程》。核心内容包括以下七个方面：1. 应用场景与战略定位2. 记忆搜索的核心挑战与工程瓶颈3. RAG 技术架构设计4. 效果提升的关键：分层提示工程与动态上下文构建5. 隐私安全与评…
RAG技术
- 0
- 0
charles4月14日
DeepSeek-OCR 2重磅发布:让AI像人一样读懂复杂文档

1 月 27 日，DeepSeek 团队发布《DeepSeek-OCR 2: Visual Causal Flow》论文，并同步开源 DeepSeek-OCR 2 模型。这是对去年 10 月发布的 DeepSeek-OCR 模型的重大升级，通过引入全新的 DeepEncoder V2 架构，实现了视觉编码从“固定扫描”向“语义推理”的范式转变。传统 OCR 的困境：机械扫描遇上复杂文档想象一下…
前沿技术
- 0
- 0
charles4月14日
为什么总感觉 Claude Code 比 Cursor 聪明？真正的原因根本不是模型能力！

不知道你们有没有这种感觉：在用 Cursor 、Trae 这种 AI 编程 IDE 的时候，刚开始觉得它非常好用，但一旦卡壳，它就像个智障一样，盯着错误的地方一通乱改。而当你使用Claude Code 等命令行工具时，虽然它反应没有那么迅速，但你总感觉它在独立思考一样，就像坐在你旁边的真人工程师那么聪明。这真不是你的错觉！也不是命令行里的模型智商更高——大家背后很可能跑的都是同一个模型…
RAG技术
- 0
- 0
charles4月14日
LingBot-Depth 正式开源：让机器人“看清”物理世界

今天，我们正式开源了 LingBot-Depth 空间感知模型。不同于数字世界，具身智能的落地高度依赖物理空间信息，空间智能是其在现实场景落地应用的核心关键，而视觉维度下支撑空间智能的重要桥梁正是距离与尺度（Metric Depth）。基于这一核心需求，空间感知模型 LingBot-Depth 应运而生。LingBot-Depth 是一种面向真实场景的深度补全模型，依托奥比中光 Gemini 33…
前沿技术
- 0
- 0
charles4月14日
从RAG到GraphRAG：货拉拉元数据检索应用实践

1. 什么是RAG？RAG（Retrieval-Augmented Generation，检索增强生成）是一种结合信息检索与文本生成的技术。核心思想：在生成答案前，先从大规模知识库中实时检索相关信息，然后基于这些检索到的可靠证据来构建回答。这种方法有效提升了生成内容的准确性、时效性与可信度，同时显著减少了大模型产生“幻觉”或错误信息的风险。RAG广泛应用于智能问答、文档摘要…
RAG技术
- 0
- 0
charles4月14日
一文带你读懂DeepSeek-OCR 2的细节！附实测！

DeepSeek太秀了，更新了DeepSeek-OCR-2，又是高立意的一篇文章，验证了了LLM架构有作为VLM编码器的潜力，有远大的理想。我之前分享过DeepSeek-OCR相关内容，见DeepSeek又开源，这次是OCR模型！附论文解读！再谈DeepSeek-OCR的信息压缩论！附DeepSeek-OCR与PaddleOCR实测对比！DeepSeek OCR的高OCR准确率，全是幻觉？咱们今天…
前沿技术
- 0
- 0
charles4月14日
Java 开发者的轻量级 RAG 方案：MeiliSearch 混合搜索实战

构建高质量的 RAG(检索增强生成)系统,混合搜索策略是绕不开的技术选型。纯向量语义搜索虽然能理解用户意图,但在处理精确匹配场景时表现不佳。当用户搜索特定的错误代码、API 方法名或产品序列号时,向量搜索往往会召回大量语义相关但实际无用的结果。纯 BM25 关键字搜索则相反,它能精确匹配字面内容,但无法理解同义词、上下文和用户的真实意图。搜索"如何优化数据库性能"时…
RAG技术
- 0
- 0
charles4月14日
DeepSeek出品，必是精品！DeepSeek-OCR 2发布：让LLM像人一样读懂复杂文档，效果超Gemini 3 Pro

DeepSeek 在25年10月份发了deepseek-ocr的论文，当时引爆了网络，DeepSeek-OCR是一种探索通过光学2D映射来压缩长上下文的新方法。我之前的文章：DeepSeek OCR论文引爆网络！Andrej Karpathy：我很喜欢；马斯克：未来99%都是光子DeepSeek王炸：10倍压缩率，97%解码精度！上下文光学压缩登场刚刚DeepSeek又推出了DeepS…
前沿技术
- 0
- 0
charles4月14日
上下文腐烂：拖垮企业AI与LLM表现的隐患与对策

文章指出，企业AI和LLM面临“上下文腐烂”问题，即过多或冲突数据导致AI性能下降、产生幻觉和延迟。解决之道在于数据治理和上下文质量管理，确保AI获取最相关信息。译自：How context rot drags down AI and LLM results for enterprises, and how to fix it[1]作者：Todd R. Weiss当今最常引用的商业箴言…
RAG技术
- 0
- 0
charles4月14日
刚刚，DeepSeek又探索新架构了，开源OCR 2

机器之心编辑部嘿！刚刚，DeepSeek 又更新了！这次是更新了十月份推出的 DeepSeek-OCR 模型（参见：太强了！DeepSeek 刚刚开源新模型，用视觉方式压缩一切）。当时 DeepSeek-OCR 的出世，引起了大家对视觉压缩的关注与讨论，而这一次，DeepSeek 对视觉编码下手了。可以说，刚刚发布的 DeepSeek-OCR 2 通过引入 DeepEncoder V2 架构…
前沿技术
- 0
- 0
charles4月13日
从向量里逆向出原始文本和模型来源

🔬 在线 Demo: embedding-inversion-demo.jina.ai📊 技术报告: jina.ai/news/embedding-fingerprints 📊 技术报告: jina.ai/news/embedding-inversion 📄 论文: arxiv.org/abs/2602.11047 💻 代码: github.com/jina-ai/e…
RAG技术
- 0
- 0
charles4月13日
构建物理 AI 的引擎：NVIDIA Cosmos

在开放复杂的物理环境中稳定运行，机器人需要能够理解环境的动态演化以及自身行动可能带来的结果。在这一演进过程中，世界模型逐渐成为连接高层智能与底层执行的关键基础设施，为机器人在真实物理世界中实现可靠的感知、决策与行动闭环提供支撑。NVIDIA Cosmos：面向物理 AI 的世界基础模型NVIDIA Cosmos 包含一系列先进的预训练多模态模型，为开发者构建虚拟世界、实现智能推理，提供了一套灵活、…
前沿技术
- 0
- 0
charles4月13日
如何用 AI 做业务级 Code Review

Code Review 遇到的挑战对于核心的业务项目来说，Code Review (代码评审) 是必不可少的。但现实中的代码评审时常常被以下几件事所困扰：Diff 太多，看不过来开类似的 Bug 出现过，复盘文档也有，然而新人不知道，老人记不清AI 不懂业务，不能给出实质性的建议因此，我们希望打造一个有记忆、懂业务、还看过你们线上事故的评审的 AI 助手，让它帮我们守最后一道门。核心链路：从 gi…
RAG技术
- 0
- 0
charles4月13日
多模态RAG不止知识问答：文搜图与图搜图的四种实现方案

引言在传统的RAG系统中，我们主要处理文本到文本的检索场景。然而，现实世界的知识库往往包含大量图片、图表等视觉信息。如何让用户通过自然语言查询找到相关图片（文搜图），或者通过一张图片找到相似图片（图搜图），成为多模态RAG需要解决的核心问题。核心挑战多模态检索面临的根本挑战是：如何让文本和图像在同一个语义空间中进行比较？传统的文本Embedding模型只能处理文本，图像特征提取模型只能处理图像，两…
前沿技术
- 0
- 0
charles4月13日
AIOps探索：做运维领域的RAG，如何做数据清洗

研究Aiops有一段时间了，目前手里有不少可落地的方案了，接下来会把这些方案全部整理到我的大模型课程里。同时，欢迎大家把你遇到的场景在评论区留言。我会在能力范围内给你提供思路和建议。上一篇文章说了，做AIOps，不要忽略做运维RAG，但是做RAG的关键在于如何搞到高质量的数据。而数据无外乎来自于各种各样的文档、邮件、工单、故障复盘、IM聊天记录等等。很多人做 RAG，一上来就研究模型、Embedd…
RAG技术
- 0
- 0
charles4月13日
Pulsar特性在AI场景中的使用

没有意外，随着模型规模的持续增长和应用场景的日益复杂，AI Infra 也自然的从"单体架构" -> "分布式架构"进行演进，例如：在大模型训练和推理阶段，随着模型规模的增长，需要通过多维度并行技术（数据并行、张量并行、流水线并行等）并发使用数百甚至数千个 GPU 才能满足训练需求；在智能体应用阶段，从能对话、写文案的 Chatbot 到如今能自主规划…
前沿技术
- 0
- 0
charles4月13日
Claude Code 每次都要重新探索代码？这个工具直接省下30%成本

用 Claude Code 写代码最烦的是什么？不是它写不出你想要的函数，也不是它偶尔犯傻。是每次开新会话，它都要像个无头苍蝇一样，重新探索一遍你的整个代码库。你看着那个进度条：探索 /src/api/ 结构... 探索 /src/components/ 结构... 探索 /src/database/ 结构... 每次。每次都要花一两分钟，每次都要烧掉十几万 tokens，每次都要等它把文…
RAG技术
- 0
- 0
charles4月13日
多模态检索新突破！Qwen3-VL-Embedding/Reranker AI 真正“看懂“你在搜什么，从图片到视频全拿下！

Qwen3-VL-Embedding 和 Qwen3-VL-Reranker：统一多模态表征与排序摘要2025年6月，Qwen 团队开源了面向文本的 Qwen3-Embedding 和 Qwen3-ReRanker 模型系列，在多语言文本检索、聚类和分类等多项下游任务中取得了业界领先的性能。2026年1月，该团队推出了 Qwen 家族的最新成员：Qwen3-VL-Embedding 和&…
前沿技术
- 0
- 0
charles4月13日
函数计算 AgentRun 重磅上线知识库功能，赋能智能体更“懂”你

阿里云函数计算 AgentRun 正式推出全新知识库功能，为智能体（Agent）注入更强的语义理解与上下文感知能力。通过深度集成百炼知识库与 RAGFlow 知识库，AgentRun 让开发者能够轻松构建具备“知识”的智能应用，真正实现“更懂用户、更贴场景、更高效响应”。为什么需要知识库？Cloud Native在传统智能体开发中，模型往往依赖通用训练数据，缺乏对特定…
RAG技术
- 0
- 0
charles4月13日
查个问题还要全图跑一遍？DA-RAG说我只取一瓢

当前主流的GraphRAG（如微软GraphRAG、ArchRAG）存在一个致命缺陷：它们依赖离线预计算的静态社区划分。就像把图书馆的书籍提前分好类贴上标签，当用户问"某跨部门项目的人员协作情况"时，系统只能机械地返回预设的"部门A"或"部门B"信息，而无法动态整合跨边界的关键内容。更基础的G-RAG方法（如LightRAG、HippoR…
RAG技术
- 0
- 0
charles4月13日