全部标签

新闻资讯

用一张12GB 显存的显卡本地部署 DeepSeek-OCR

运行环境配置NVIDIA GeForce RTX 3080 Ti（12G）Ubuntu 20.04 + CUDA 11.8 + PyTorch 2.6.0这种配置在许多开发者手中都很常见，无需专业服务器即可上手。源码安装步骤1. 克隆仓库：git clone https://github.com/DeepSeek-ai/DeepSeek-OCR.git2. 创建并激活虚拟环境：conda crea…
前沿技术
- 0
- 0
charles4月13日
GraphRAG：让 RAG 看见"关系网络"的技术进化

GraphRAG：让 RAG 看见"关系网络"的技术进化最近在折腾 RAG 相关的东西，发现一个挺有意思的现象——传统 RAG 在处理某些问题时简直就是"智商掉线"。举个具体的例子。我拿《三体》第一部做了个测试（注：选第一部是因为它够短、人物关系也相对简单，方便验证想法，不想被后面那两部复杂的剧情搞晕）：问它"叶文洁是怎么联系上三体文明…
RAG技术
- 0
- 0
charles4月13日
京东推出JoyVoice，解决多说话人语音合成难题

标题：JoyVoice: Long-Context Conditioning for Anthropomorphic Multi-Speaker Conversational Synthesis链接： https://arxiv.org/pdf/2512.19090作者单位：JD SpeechTeam发表时间：2025年12月22日Demo地址：https://jea-speech.gi…
前沿技术
- 0
- 0
charles4月13日
企业级 AI 知识库问答，是不是面子工程？ – 是也不是

2025年到现在，大模型在企业落地已经进入深水区，绝大部分场景因为建设难度难以成为CIO们眼中合适的大模型速赢项目，AI知识库问答成了大家的首选 – 既满足了大家对AI的想象，又很难失败。如果我们回归价值产出时，我很负责任的说，知识库项目是非常难“成功”的 - 它是一个非刚需、无直接价值产出、无当前场景替代的功能。即使如此，我仍然认为知识库问答是企业AI速赢…
RAG技术
- 0
- 0
charles4月13日
SentGraph：一句一句把多跳RAG“画”成图

为什么传统 RAG 会“断链”单跳场景：把文档切成 200 字左右的 chunk，做向量相似度检索 → LLM 直接答，够用。多跳场景：需要把 2-4 份文档里的证据拼成一条“推理链”。chunk 粒度粗，一次就带回一整段，里面 60% 是干扰句，关键句反而被淹没 → 链条断了，LLM 开始“胡编”。作者一句话总结：“不是检索不准，是检索单元太胖，逻辑关系太乱。”传统 chunk 图 …
RAG技术
- 0
- 0
charles4月13日
我们被文本框困住了

昨天刷到 ryo Lu 的一条推文，讲他们为什么要做 Cursor。推文不长，但每一句都击中了我最近的困惑。简单介绍一下 ryo：他现在是 Cursor 的 Head of Design，之前在 Notion 早期团队和 Stripe 工作过，也做过创业。他在推特简介里写"I make a world where anyone can make software"（我想创造一个…
前沿技术
- 0
- 0
charles4月13日
增强型RAG还是Agentic RAG？一场关于检索增强生成系统的全面对比实验

当LLM遇到知识库，检索增强生成(Retrieval-Augmented Generation，RAG)系统应运而生。但随着技术演进，两种截然不同的范式正在争夺主导地位：一种是通过精心设计的模块链条逐步优化的"增强型RAG"，另一种是让LLM自主决策、动态调整的"Agentic RAG"。哪种方案更值得采用？成本与性能如何权衡？论文通过大规模实验给出了答案。…
RAG技术
- 0
- 0
charles4月13日
“基于多模态大模型的智能保险理赔系统”荣获上海金融创新奖

12月26日，上海市人民政府进行2023—2024年度上海金融创新奖颁奖活动，蚂蚁集团“基于多模态大模型的智能保险理赔系统”荣获奖项。据了解， “上海金融创新奖”是国内首个聚焦金融创新领域的省部级政府奖项，也是金融领域唯一由上海市人民政府组织评选表彰的奖项，是金融创新领域最具含金量的奖项之一。“智能保险理赔系统”聚焦传统保险理赔长期存在的人工依赖重、流程冗长等痛点，融合三大核心技术，实现重大突破。…
前沿技术
- 0
- 0
charles4月13日
别再用向量数据库给AI灌"迷魂汤"了

一场关于"切片"的集体癔症如果未来的数字考古学家翻开2023-2025年的技术史，他们一定会看到一个荒诞的景观：成千上万的天才程序员，正满头大汗地把人类文明精妙的逻辑、厚重的典籍和严密的法典，塞进一台巨大的"赛博碎纸机"里。这台碎纸机有个高级的名字，叫向量数据库（Vector Database）。在那段狂热的日子里，人们坚信只要把知识切成一段段5…
RAG技术
- 0
- 0
charles4月13日
全模态大模型部署，vLLM-Omni 来了，100%开源

vLLM 是我们公众号的常客了，几乎所有关于大模型本地部署的文章都是用 vLLM 启动的安全审核大模型，本地部署，实测腾讯混元 OCR 大模型，本地部署，实测大模型本地部署相关文章，我做了一个网站但是部署多模态，尤其是最近 N 多全模态大模型，vLLM 就有点捉襟见肘了vllm-project 团队开源了一个新框架——vLLM-OmnivLLM-Omni什么是 vLLM-Omni？最初，vLLM…
前沿技术
- 0
- 0
charles4月13日
DSPy 3 + GEPA：迄今最先进的 RAG 框架——自动推理与提示

上周，OpenAI 在半夜突发“飙车”，一度全网骚动。GPT-5.2 发布，全球 AI 王座再度易主。四个月左右就迎来一次大版本更新并不常见。导火索是竞争压力。路透社报道(https://www.reuters.com/technology/openai-launches-gpt-52-ai-model-with-improved-capabilities-2025-12-11/) 称，Altma…
RAG技术
- 0
- 0
charles4月13日
Qwen-lmage-Layered：图片分层指哪改哪

我们很高兴推出全新图像生成模型Qwen-lmage-Layered，新模型采用自研创新架构，可将图片“拆解”成多个图层。这种分层表示赋予了图像内在的可编辑性：每个图层都可以独立操作，而不会影响其他内容。同时，这种分层结构天然支持高保真的基本编辑操作，例如缩放、移动和重新着色。通过将不同元素物理地隔离到不同的图层中，我们的方法实现了高保真的编辑效果。Qwen-lmage-Layered技术报告:ht…
前沿技术
- 0
- 0
charles4月13日
Anthropic一夜震撼升级：Claude获得「永久记忆」！全球打工人变天

搅翻整个硅谷的Anthropic，继续甩出新的核弹。就在今天，消息人士爆出：Anthropic正在给Claude Cowork重磅升级，知识库注入永久记忆！也就是说，从此Claude将不再是金鱼记忆，在它的「永存大脑」中，它将开始自动记住一切。从此，Claude将不再是个聊天机器人，这种永久记忆模式的Cowork模式，将会彻底颠覆AI办公革命！此外，Cowork模式将与Chat模式合并，并成为Cl…
RAG技术
- 0
- 0
charles4月13日
经同意的语音克隆

在这篇博客文章中，我们介绍了“语音同意验证机制 (voice consent gate)”的概念，支持通过明确同意来进行语音克隆。我们还提供了一个和，帮助大家快速上手这一想法。近年来，逼真的语音生成技术已经达到了令人惊讶的水平。在某些情况下，生成出来的合成语音几乎能以假乱真，和真人的声音非常相似。如今，曾经只存在于科幻小说中的“语音克隆”已经成为现实。只需要几秒钟的录音，就能让任何人的声音“说出”…
前沿技术
- 0
- 0
charles4月13日
Relink：动态构建查询导向的知识图谱推理框架，新一代 GraphRAG

Graph-based Retrieval-Augmented Generation: Relink Framework文章摘要针对大语言模型幻觉问题，现有GraphRAG方法依赖静态知识图谱，面临知识不完整和干扰事实两大挑战。本文提出Relink框架，突破传统"先构建后推理"范式，采用"边推理边构建"策略，动态生成查询专属证据图谱，在五个开放域问答基准上实…
RAG技术
- 0
- 0
charles4月12日
语音交互技术：让你的 AI 助手开始说话

语音交互技术：让你的 AI 助手开始说话在人工智能技术飞速发展的今天，AI 助手已从 “文字框里的应答者” 进化为 “能听会说的智能伙伴”。无论是手机端的 Siri、小爱同学，还是 Web 端的智能客服、教育 AI 助手，语音交互都成为其核心竞争力 —— 用户无需手动输入，只需开口提问，AI 助手就能用自然的语音回应。这一转变的背后，离不开前端语音识别与 TTS（文本转语音）技术的支撑。本文将聚焦…
前沿技术
- 0
- 0
charles4月12日
【解密源码】WeKnora 文档切分与 Chunk 构建解析：腾讯生产级 RAG 的底层设计

引言WeKnora 是腾讯开源的一套生产级 RAG 框架，定位非常明确：解决真实业务场景下“文档复杂、类型多样、规模可控但质量要求极高”的知识增强问题。社区中有人将其视为 ima 的开源实现之一，虽然这一说法无从官方考证，但可以确定的是，WeKnora 在工程完整度、边界处理和异常降级策略上，是一套经过实战打磨的系统方案。从文档接入、解析、切分、向量化、多模态增强，到知识图谱、…
RAG技术
- 0
- 0
charles4月12日
面向业务落地的AI产品评测体系设计与平台实现

一、背景和挑战1.1 背景在人工智能技术迅猛发展的推动下，各行各业正经历前所未有的数字化转型浪潮。从智能制造的智能调度系统，到医疗领域的辅助诊断工具；从金融行业的风险预测模型，到电商场景下的个性化推荐引擎——AI 正在以一种不可逆转的趋势重塑产业格局。尤其值得关注的是，大模型技术的突破性进展不仅显著降低了 AI 应用的技术与人员门槛，更催生了“产业+AI”融合创新的广泛应用场景，为行业智能化升级注…
前沿技术
- 0
- 0
charles4月12日
Dify 外部知识库最佳实践：基于 InfraNodus 扩展 RAG 图谱能力

dify 的外部知识库功能支持对接第三方知识系统，无需迁移数据即可使用专业的检索技术。本文将介绍如何把 InfraNodus（一个内置 GraphRAG 能力的文本网络分析工具）接入 Dify 工作流。为什么选择 InfraNodus？传统 RAG 依赖向量相似度搜索，处理具体问题时表现不错，但面对宽泛的问题往往力不从心。比如用户问“这个是用来做什么的？”，标准 RAG 很可能检索不到任何内容，或…
RAG技术
- 0
- 0
charles4月12日
声画俱全，一镜入戏 | Seedance 1.5 pro 音视频创作模型正式发布

舞台中央，灯光聚焦，随着一段高亢的旦角唱腔，角色完成了一连串配合鼓点的长枪动作。这并非真实演出，而是 Seedance 1.5 pro 尝试一镜生成的创作片段，其演绎与专业戏曲表演尚有很大差距，但声韵已初见雏形。今天，我们正式发布新一代音视频创作模型 Seedance 1.5 pro。Seedance 1.5 pro 支持音视频联合生成，它能够执行多种任务，包括从文本到音视频的合成以及图像引导的音…
前沿技术
- 0
- 0
charles4月12日
多层次理解向量匹配的底层原理

向量匹配原理本质上是：把“对象 / 文本 / 图片 / 行为”等转成向量（一串数字），再用数学方法衡量向量之间的相似度，从而判断它们“有多像”。下面我从直觉 → 数学 → 工程实现 → 应用场景等多层次给大家系统性的讲清楚。一、直觉层理解1️⃣ 向量是什么？向量 = 对一个对象的“特征编码”比如一句话：“LangChain可以构建智能体”会被编码成类似：[0.12, -0.33, 0.…
RAG技术
- 0
- 0
charles4月12日
OpenAI 发布 GPT Image 1.5：全面升级

刚刚，OpenAI 今天发布了新的图像模型：GPT Image 1.5核心变化一句话：精准编辑，不崩全图让它改哪，他就改哪，其他地方不乱动同时，对比上一代模型 GPT Image 1.0：• 更强的指令遵循• 更好的细节保持• 速度比上一代快4倍• API 价格降了 20% 以上今天开始，向所有 ChatGPT 用户推出。另外经实测，这个模型在中文处理上比 NanoBanan…
前沿技术
- 0
- 0
charles4月12日
2026 年你需要了解的 RAG 全解析

核心概念、架构与更多实践…随着2025年的过去，各类基于 LLM 的系统架构已被广泛采用，并在诸多任务上展现出高效性。其中，Retrieval-Augmented Generation (RAG) 无疑是每位 AI 从业者都必须掌握的关键架构。鉴于其重要性以及原始 RAG 框架在研究与生产系统中的快速演进，本文力求兼顾实用与系统性。每当我写这类重要 AI 主题时，都会尽量深入，覆盖核心概…
RAG技术
- 0
- 0
charles4月12日
AI导演来了！UniVA：你的全能视频创作智能体

目录:1. UniVA视频超级智能体2. UniVA四个核心内容3. UniVA行业定位4. 结尾5.参考链接6.互动问题一年前我们团队就利用多模态大模型解决了音视频模型的多种理解任务，并成功处理了公司大部分视频,期待已久的多模态视频解析工具新功能来了。但受限于资源，去年部署了几个开源的文生视频的模型，效果差强人意，这块需求也就pending了。前段时间在北京阿里巴巴参加了一个多模态视频…
前沿技术
- 0
- 0
charles4月12日