全部标签

新闻资讯

官宣，Milvus开源语义高亮模型：告别饱和检索，帮RAG、agent剪枝80%上下文

RAG与Agent用到深水区，一定会遇到这个问题：明明架构很完美，私有数据也做了接入，但项目上线三天，不但token账单爆了，模型输出结果也似乎总差点意思。原因在于，针对大模型的RAG、agent架构，其检索模块，本质上可视为传统搜索做的衍生变体。这就导致了一个问题，传统搜索系统，比如搜索引擎、推荐系统等，需要饱和式输出，保证用户能够收到关于检索结果所有召回信息，然后人类会自动在其中选择适合的信息…
RAG技术
- 0
- 0
charles4月12日
万字拆解UI-TARS 2.0，看懂豆包手机背后的核心技术

导读近期，##豆包AI手机的亮相引发了科技圈的广泛热议。许多数码博主发布的实测视频显示，其能够流畅执行跨应用复杂任务，效果令人惊艳。根据公开信息推测，其工作原理可能是：设备端大约每3秒向云端发送一帧当前屏幕图像；云端部署的强大多模态视觉语言模型（VLM）会对画面进行解析，理解界面元素与用户指令，进而生成具体的操作指令（Action）回传至手机端执行。尽管我们尚不清楚其背…
前沿技术
- 0
- 0
charles4月12日
从RAG到记忆工程：AI长期记忆系统的架构范式与落地瓶颈

一场关于技术本质、落地挑战与未来展望的深度对话导读 2025年12月25日晚,记忆张量CTO李志宇与两位行业专家——阶跃星辰Agent研发负责人胡晨、OPPO AI高级算法工程师于明,围绕"记忆工程"展开了一场深入对话。这场讨论不仅是为2026年1月16-17日在北京举办的Agent AI Summit超级智能体系统架构大会预热,更是对这一新兴技术领域的系统性思考。记…
RAG技术
- 0
- 0
charles4月12日
秒杀传统 TTS？！Gemini 原生中文 TTS 体验 + 提示词模板

Gemini 新推出的 TTS 模型在音质、情绪表达和可控性方面都远超预期。它最核心的特点可以用一句话概括：不仅知道说什么，而且知道如何说。无论是儿童故事的温馨细腻、悬疑剧情的紧张压抑，还是电竞解说的激情澎湃，Gemini 2.5 TTS 都能游刃有余地驾驭。本文将系统介绍它的效果、特点和实际玩法。一、先听效果：几个风格迥异的音频示例示例一：儿童睡前故事（温柔风格）效果评价：语调温柔、节奏舒缓，带…
前沿技术
- 0
- 0
charles4月12日
索引选不对，成本贵十倍！ScaNN就是电商推荐的最优解

在日常解答Milvus社区中各种用户提问的时候，一个最常见的问题是：Milvus索引这么多，我到底要怎么选？对于常见场景，我们可以参考这两张图但肯定也有用户发现了，Milvus中，还有ScaNN这么一个索引类型怎么没有放进来，这个索引究竟要怎么用？适合什么场景用？先一句话解答，它框架上和IVFPQ非常相似，优点在于改善了PQ编码的一些细节，以及使用了高效的SIMD实现。主要适用于一些中等精度（召回…
RAG技术
- 0
- 0
charles4月12日
别被“多模态”骗了：用一本200页的教材，我测出了GPT-5.2和Gemini的物种代差

真正的多模态，不是给盲人装义眼，而是让他睁开眼睛。很多朋友知道，我是个“暴力测试”爱好者。之前我因为跑 Claude Code 跑得太狠，一度被官方限流。对我来说，AI 工具不是用来聊天的，是用来干活的，而且是干重活。最近在开发一个新功能时，我遇到了一个极端的“多模态”场景。这个场景，彻底暴露了目前市面上大模型的两条技术路线之争。简单说：Gemini 3 Pro 赢麻了，而 GPT-5.2 还停留…
前沿技术
- 0
- 0
charles4月12日
Cursor 用文件系统重构上下文工程：5个实践讲透

随着 Agent 能力不断提升，如何高效管理上下文成为关键挑战。Cursor 团队近期发布的"动态上下文发现"工程博客，给出了一套系统性的解法——用文件系统作为外部存储，让 Agent 按需发现、渐进加载。01 从"提前灌输"到"按需发现"Cursor 的核心判断是：预先提供更少的细节，反而能让 Agent 更容易自主地按需提取相关上下文…
RAG技术
- 0
- 0
charles4月12日
Qwen3-Omni新升级:声形意合，令出智随！

Qwen3-Omni是新一代原生全模态大模型，能够无缝处理文本、图像、音频和视频等多种输入形式，并通过实时流式响应同时生成文本与自然语音输出。我们引入了多种升级来提升模型表现和效率。Qwen3-Omni-Flash-2025-12-01是在Qwen3-Omni基础上进行全面升级的版本。此次升级版本主要特点为：音视频交互体验全面升级：大幅增强对音视频指令的理解与执行能力，有效解决口语化场景中常见的“…
前沿技术
- 0
- 0
charles4月12日
首发实测智谱 GLM-TTS：3秒克隆我的声音，连「哎等等这bug怎么回事」都学会了

TTS 赛道又卷起来了。今天，智谱正式开源了 GLM-TTS —— 一套工业级语音合成系统。如果你对「AI 语音」这几个字不感冒，建议留下来看看。文字说多了没用，语音这东西，得听。01先听效果听完什么感觉？这是我录了一段话，然后用 GLM-TTS 克隆我的声音后生成的。如果我不说，你能听出来哪个是 AI 吗？我专门设计了一段带语气词和情绪转折的文案来测试：重点来了——那句「哎，等等，这个 bug …
前沿技术
- 0
- 0
charles4月12日
CES 2026 | 如何使用 RAG 和安全护栏构建语音智能体

构建智能体不仅仅是“调用 API”，而是需要将检索、语音、安全和推理组件整合在一起，使其像一个统一并互相协同的系统一样运行。每一层都有自己的接口、延迟限制和集成挑战，一旦跨过简单的原型就会开始感受到这些挑战。在本教程中，您将学习如何使用 2026 年 CES 发布的最新 NVIDIA Nemotron 语音、检索增强生成 (RAG)、安全和推理模型，去构建一个带有护栏的语音驱动…
RAG技术
- 0
- 0
charles4月12日
硅基流动上线智谱视觉模型 GLM-4.6V

不仅能看懂，更能做到。相比前代视觉模型，智谱最新开源的 106B 参数规模 GLM-4.6V 拥有“动手”能力，能将所见之物直接转化为可执行的行动，尤其适合应对高度复杂视觉推理任务与深度研究。以往，视觉模型运行流程如同繁琐的传话游戏：图像需先被描述成文字才能被理解和处理，信息损耗在所难免。GLM-4.6V 从架构层面重塑了这一流程，确立了“图像即参数，结果即上下文”的原生范式。这意味着，截图、文档…
前沿技术
- 0
- 0
charles4月12日
不会做RAG、agent的本地数据管理？都来学Claude Code！附深度拆解

企业级场景中，无论是做RAG还是Agent，我们都会面临一个问题：出于数据隐私以及合规要求，数据必须保留在本地。但传统的本地存储方案往往存在数据隔离性差、崩溃易丢数据、配置管理混乱、操作不可撤销等问题。Claude Code 通过一套精心设计的存储体系，系统性地解决了这些痛点。以下为核心思路的太长不看版：多项目隔离问题：路径编码的项目目录 + Session文件独立存储 → 不同项目数据…
RAG技术
- 0
- 0
charles4月12日
GLM-TTS技术报告：基于多奖励强化学习的可控发音语音合成

今天，我们正式发布工业级语音合成系统 GLM-TTS，并在 Hugging Face 和 ModelScope 上开放模型权重。基于在数据筛选、基础模型结构、精品音色监督微调（SFT）范式和强化学习（RL）范式等多方面创新，GLM-TTS 仅在 10w 小时数据上训练，便具备了“3 秒”音色复刻和超强文本理解能力，字错误率和情感表达在多个开源测试集上实现开源 SOTA。即刻起，用户可在 Z.ai（…
前沿技术
- 0
- 0
charles4月12日
为RAG装上导航：ToPG通过图遍历，破局复杂查询

https://github.com/idiap/ToPGhttps://arxiv.org/pdf/2601.04859A Navigational Approach for Comprehensive RAG via Traversal over Proposition Graphs一、RAG 的三座“大山”传统 RAG 方案擅长不擅长Chunk-RAG（整块召回）简单事实…
RAG技术
- 0
- 0
charles4月12日
Qwen3-TTS全面升级：声情并茂，语通八方

Qwen3-TTS 是支持多音色、多语种和多方言的旗舰语音合成模型，致力于实现稳定、自然和高效的语音生成，目前可通过Qwen API访问。主要改进：更加丰富的音色支持：Qwen3-TTS 提供超过49种高品质音色，涵盖不同性别、年龄、地域特征与角色设定，满足多样化的场景需求。撒娇搞怪-茉兔，陪伴感满满的青梅竹马-小野杏，傲娇率性的女汉子-十三，严厉老师-墨讲师，智慧老者-沧明子，萝莉萌妹-萌小…
前沿技术
- 0
- 0
charles4月12日
高精度知识库≠Milvus+llm！这份PaddleOCR+混合检索+Rerank技巧请收好

在大型语言模型（LLM）的应用落地中，RAG（检索增强生成）是解决模型幻觉和知识时效性的关键技术。而在RAG的诸多场景中，基于多文档高精度智能分析与问答系统，也就是知识库又必然是我们最常遇到，且企业场景最刚需的一类。那么如何做好知识库？本文将以开源项目Paddle-ERNIE-RAG为例，对其关键技术进行说明介绍。项目地址：https://github.com/LiaoYFBH/Paddle-ER…
RAG技术
- 0
- 0
charles4月12日
Ming-Flash-Omni 音视图文全模态技术报告解读 —— 一为全，全为一

Ming-Flash-Omni 是一个基于稀疏混合专家（MoE）架构的统一多模态大模型，在视觉、语音、图像、文本全模态上同时实现领先的理解与生成能力，以 100B 总参数、仅 6.1B 激活参数的高效设计，刷新多项 SOTA 记录。在通往通用人工智能（AGI）的道路上，人类智能的一个关键特征是多模态信息的统一处理能力：我们能看图说话、听音识义、依文作画。然而，当前多数多模态大模型仍采用“感知-生成…
前沿技术
- 0
- 0
charles4月12日
AIOps探索：做AIOps不要低估运维领域的RAG带来的影响

研究Aiops有一段时间了，目前手里有不少可落地的方案了，接下来会把这些方案全部整理到我的大模型课程里。同时，欢迎大家把你遇到的场景在评论区留言。我会在能力范围内给你提供思路和建议。我发现对AIOps感兴趣的同学大多都聚焦在这几方面：“异常检测”、“智能告警”、“根因分析（RCA）”或者“容量预测”。但很少有人讨论运维领域的RAG。如果你觉得RAG仅仅只是个“高端版全文检索”或者“聊天机器人”，那…
RAG技术
- 0
- 0
charles4月12日
阿里 Qwen3-TTS 全新上线！支持9种方言+49种音色，连天津味儿都拿捏了！

最近 TTS 领域是真的越来越卷了，国内外各个互联网大厂轮番上阵。阿里通义（Qwen）团队最近在开源界简直是“劳模”级别的存在，这边又悄悄上新了全新的 Qwen3-TTS。而且一出手就明显是冲着「自然度 + 多音色 + 多语言」这一代标准去的。Qwen3-TTS 是阿里 Qwen 系列最新一代文本转语音模型，主打三件事：• 更拟人的语音表达• 更丰富、可用的音色体系• 更强的…
前沿技术
- 0
- 0
charles4月12日
Qwen3-VL 正式开源：多模态 RAG 的关键一环终于补齐

AI模型库 · 今日重点阿里刚刚开源的这套多模态模型，可能会改变“搜索”和“RAG”的底层逻辑如果你最近在关注 AI 模型圈，会发现一个非常明显的变化：大家讨论的不再只是“能不能生成”，而是——能不能真正“理解”。就在 1 月 9 日，阿里通义悄悄扔出了一套重量级开源模型组合：Qwen3-VL-Embedding + Qwen3-VL-Reranker没有铺天盖地的营销，但在开发者圈子里，这套模型…
RAG技术
- 0
- 0
charles4月12日
微软又上大分！刚刚开源一款 0.5B 轻量级实时 TTS 模型，还能边想边说！

如果说 2024 年我们解决了大模型「脑子」聪明不聪明的问题，那么 2025 年，我们正在疯狂解决 AI「嘴巴」利不利索的问题。大家平时用各种 AI 助手语音模式时，你问了一个问题，对面沉默了 2-3 秒（虽然他在思考），然后突然给你念一段完美的稿子。这种体验虽然准确，但不像真人。真人是怎么说话的？真人在脑子里组织语言的同时，嘴巴就已经开始动了。我们会有停顿、有语气、甚至会边想边说。…
前沿技术
- 0
- 0
charles4月12日
白嫖一个英伟达的垂直领域 Deep Research 智能体

如果大家玩过类似 cherry stutio, ima 等本地客户端，把自己的专业领域文档导入然后做问答，这很容易做到。但是想要产出一份长篇幅有深度的报告，就力不从心了。如果大家在国内外的网站上体验过 deep research 功能，针对通用话题出一份报告问题不大。但是想要出一份自己专业领域的报告，就无从下手了。好消息，NVIDIA DLI 的在线课程《Build a Deep Research…
RAG技术
- 0
- 0
charles4月12日
Step-Audio-R1 技术报告解析

先说结论：Step-Audio-R1 的核心贡献，在于将音频模型从文本推理转为真正的声学推理，以及解决了音频模型推理退化的问题。也就是，它不再仅仅通过识别出的文字来思考，而是学会了深度解码用户的副语言信息（如情感、语调、环境音）进行思考和判断。同时用一些实验证明了阶跃训练这个R1模型方法的有效性。可以从上面两个例子看出音频大模型算是走进下一个级别了，能开始分析感情了。还不懂…
前沿技术
- 0
- 0
charles4月12日
Milvus 向量数据库实战：从零构建高性能 RAG 系统

前言在 AI 应用快速发展的今天，向量数据库已成为构建智能检索系统的核心基础设施。Milvus 作为一款开源的高性能向量数据库，在 RAG（Retrieval-Augmented Generation）系统中发挥着关键作用。本文将带你从零开始，基于 Milvus 构建一个完整的 RAG 系统，涵盖数据准备、向量检索、结果重排、位置优化等核心环节，并分享生产环境中的最佳实践和性能优化技巧。1. Mi…
RAG技术
- 0
- 0
charles4月12日