-
GenAI的多模态数据智能平台如何构建?
摘要:在snowflake的《人工智能+数据预测2025》报告中提到,“数据平台的下一个演进不仅关注格式化、存储和访问数据,还关注将其置于上下文中”。这里的说的上下文,是指大模型在输出的时候,需要给它提供的上下文参考或知识背景。所以说未来的数据平台的发展是为了大模型的生成而构成的知识而存在。本文将介绍,为了应对AI大模型的应用,数据平台在过去传统的湖仓一体的架构上演进的方向。企业落地知识库的困境A…- 0
- 0
-
GLM-OCR技术细节全公开
自 2 月初开源以来,GLM-OCR 受到了全球开发者、企业的广泛喜爱与集成,目前已在 Hugging Face 上获得 360 万下载,同时也衍生出了一些 Skills 和 App。今天,我们正式发布 GLM-OCR 技术报告,将模型「SOTA 文档理解能力」背后的技术细节,一一公开分享。欢迎大家广泛测试与集成。技术报告:https://arxiv.org/pdf/2603.10910Huggi…- 0
- 0
-
Midjourney V8 正式上线:高清模式、文字无错、生成速度提升5倍
相信很多关注AI圈的朋友,都知道有一个强大的Midjourney绘画模型,Midjourney模型可以理解是AI绘画的美学代表。就在刚刚,Midjourney再次投下重磅炸弹,V8 模型正式开启公测!如果说V7是在细节上的精修,那么V8简直就是一次全新的跨越。以前只是设计师能生成好的图片,这次更新模型更好理解提示词,那么普通用户也能生成高质量图片。这次更新的功能对普通用户非常友好,无论是生成封面图…- 0
- 0
-
我复刻了 Claude 刚发布的生成式 UI 交互!
前天 Anthropic 在 Claude 里面上线了基于生成式 UI 的新交互。可以帮你在聊天信息流里面用地吗可视化的方式介绍一些概念和信息,远比原来的纯文本要好理解。我之前就一直在看类似的方案,刚好 Claude 发了,我就感觉我也得加紧做了。同时刚好也可以逆向参考一下他的方案。疯狂 PUA 了两天 Codex 和 Claude 还真让我搞出来了!这个功能能让 AI 直接在聊天里画交互式图表,…- 0
- 0
-
Gemini Embedding 2:首个原生五模态 embedding 模型
Google DeepMind 今天发了 Gemini Embedding 2,第一个原生五模态 embedding 模型文本、图片、视频、音频、PDF,五种东西,首次编码进同一个向量空间它能处理什么五种模态,支持 100+ 语言:• 文本:最多 8192 个 input tokens• 图片:每次最多 6 张,PNG / JPEG• 视频:最长 128 秒,MP4 / MO…- 0
- 0
-
谷歌首个原生多模态向量模型发布:Agent 可以用文字搜图片、用图片搜视频了…
Gemini Embedding 2上线,统一图文音视频向量空间谷歌正式推出基于Gemini架构构建的首个原生多模态嵌入模型Gemini Embedding 2。该模型目前已通过Gemini API和Vertex AI开启公开预览。与以往纯文本基础模型不同,Gemini Embedding 2的核心突破在于将文本、图像、视频、音频和文档全部映射到同一个统一的向量空间中,并能跨越100多…- 0
- 0
-
AI真人数字人语音对话性能优化实践总结
本文总结了为解决 AI 数字人导购对话中的回答延迟感而进行的性能优化实践。初始的对话链路因 ASR、LLM 和 TTS 的串行叠加,导致平均端到端延迟高达 5.64 秒。为实现数据驱动的优化,首先搭建了一套覆盖全链路的高精度性能监控体系作为基础。核心解决方案是集成 Qwen Omni 一体化模型,旨在通过流式传输音频和文本来减少中间环节,同时在客户端设计了音频窗口缓冲机制以确保嘴型同步。最终,通过…- 0
- 0
-
“思考”更深,生成更准|Seedream 5.0 Lite 发布
去年 9 月,我们发布统一编辑与生成的图像创作模型 Seedream 4.0,它融合了部分常识和一定的推理能力,受到不少用户的欢迎。今天,我们推出 Seedream 5.0 Lite 智能图像创作模型。相比 4.0 版本,它在理解、推理和生成方面全面提升,是一个“更聪明”且“更专业”的视觉创意伙伴。Seedream 5.0 Lite 带来的主要提升…- 0
- 0
-
Qwen-Image-2.0发布:中文生图彻底不拧巴了
今天阿里千问发布了个新东西,叫 Qwen-Image-2.0。说实话,我本来对这类新闻已经有点麻木了。毕竟现在各家大模型都在卷生图能力,今天你发个1.0,明天我发个2.0,看着都审美疲劳。但这次,真的有点不一样。先说结论Qwen-Image-2.0 的核心卖点就三个:支持 1K 长文本指令——这是最炸的中文文字生成能力很强——这是最实用的同时支持生图和图片编辑——这是最完整的这三个点组合在一起,基…- 0
- 0
-
对话离哲:企业AI告别「对话玩具」,多模态记忆是分水岭
初见离哲(本名占超群,质变科技创始人兼CEO)时,他习惯性地用双手比划,仿佛在将空气中无形的碎片聚拢、串联。“人的记忆是碎片的,”他说,“而无数碎片化的知识,就像无数溪流汇成湖。”这形象地解释了质变科技核心产品“记忆湖(MemoryLake)”的由来,也指向了当前企业AI升级中最关键的挑战与机遇。如今,企业AI正面临一个分水岭:一边是仅能处理对话的“智能玩具”;另一边,则有望成为能持续理解、学习并…- 0
- 0
-
Qwen-Image-2.0: 字字清晰,张张细腻
我们推出Qwen-Image-2.0,新一代图像生成基础模型。Qwen-Image-2.0主要特色包括: 更专业的文字渲染:1k token指令支持,直出专业信息图,包括PPT/海报/漫画等。 更细腻的真实质感:2k分辨率支持,细腻刻画写实场景,包括人物/自然/建筑等。 更强的语义遵循:理解生成一体化,生图编辑二合一。 更轻量的模型架构:更小模型,更快速度。 阿里云百炼上已开通API邀测,开发者也…- 0
- 0
-
多模态文档智能解析最新开源进展:GLM-OCR方法概述
继续跟进【文档智能】解析进展,继《多模态文档智能解析开源进展:针对形变文档优化的PaddleOCR-VL-1.5架构改进点》、《多模态文档智能解析持续开源进展:Youtu-Parsing模型架构、数据、训练方法》等开源后,这周又开源了一个GLM-OCR模型,从技术路线上,仍然是内卷式的重复造轮子,其解析pipeline遵循layout+vlm的两阶段方式,即:layout部分(模型使用的是padd…- 0
- 0
-
用AI做深度用户访谈,获蓝驰、高瓴、王慧文投资
「暗涌Waves」独家获悉,一家成立刚不过4个月的AI-Native用户研究平台Trooly.AI已完成近千万美元的种子轮融资,投资方包括蓝驰创投、高瓴创投和王慧文。与市面上无数“超级个体”、“虚拟陪伴”、“碳基硅基共生世界”的宏大叙事不同,Trooly.AI想要用AI实现真实的商业闭环。其核心产品面向有用户调研需求的B端客户,通过多模态Voice Agent技术,专注45分钟左右的深度定性用户访…- 0
- 0
-
DeepSeek-OCR 2重磅发布:让AI像人一样读懂复杂文档
1 月 27 日,DeepSeek 团队发布《DeepSeek-OCR 2: Visual Causal Flow》论文,并同步开源 DeepSeek-OCR 2 模型。这是对去年 10 月发布的 DeepSeek-OCR 模型的重大升级,通过引入全新的 DeepEncoder V2 架构,实现了视觉编码从“固定扫描”向“语义推理”的范式转变。 传统 OCR 的困境:机械扫描遇上复杂文档 想象一下…- 0
- 0
-
LingBot-Depth 正式开源:让机器人“看清”物理世界
今天,我们正式开源了 LingBot-Depth 空间感知模型。不同于数字世界,具身智能的落地高度依赖物理空间信息,空间智能是其在现实场景落地应用的核心关键,而视觉维度下支撑空间智能的重要桥梁正是距离与尺度(Metric Depth)。基于这一核心需求,空间感知模型 LingBot-Depth 应运而生。LingBot-Depth 是一种面向真实场景的深度补全模型,依托奥比中光 Gemini 33…- 0
- 0
-
一文带你读懂DeepSeek-OCR 2的细节!附实测!
DeepSeek太秀了,更新了DeepSeek-OCR-2,又是高立意的一篇文章,验证了了LLM架构有作为VLM编码器的潜力,有远大的理想。我之前分享过DeepSeek-OCR相关内容,见DeepSeek又开源,这次是OCR模型!附论文解读!再谈DeepSeek-OCR的信息压缩论!附DeepSeek-OCR与PaddleOCR实测对比!DeepSeek OCR的高OCR准确率,全是幻觉?咱们今天…- 0
- 0
-
DeepSeek出品,必是精品!DeepSeek-OCR 2发布:让LLM像人一样读懂复杂文档,效果超Gemini 3 Pro
DeepSeek 在25年10月份发了deepseek-ocr的论文,当时引爆了网络,DeepSeek-OCR是一种探索通过光学2D映射来压缩长上下文的新方法。我之前的文章:DeepSeek OCR论文引爆网络!Andrej Karpathy:我很喜欢;马斯克:未来99%都是光子DeepSeek王炸:10倍压缩率,97%解码精度!上下文光学压缩登场刚刚DeepSeek又推出了DeepS…- 0
- 0
-
刚刚,DeepSeek又探索新架构了,开源OCR 2
机器之心编辑部嘿!刚刚,DeepSeek 又更新了! 这次是更新了十月份推出的 DeepSeek-OCR 模型(参见:太强了!DeepSeek 刚刚开源新模型,用视觉方式压缩一切)。 当时 DeepSeek-OCR 的出世,引起了大家对视觉压缩的关注与讨论,而这一次,DeepSeek 对视觉编码下手了。 可以说,刚刚发布的 DeepSeek-OCR 2 通过引入 DeepEncoder V2 架构…- 0
- 0
-
构建物理 AI 的引擎:NVIDIA Cosmos
在开放复杂的物理环境中稳定运行,机器人需要能够理解环境的动态演化以及自身行动可能带来的结果。在这一演进过程中,世界模型逐渐成为连接高层智能与底层执行的关键基础设施,为机器人在真实物理世界中实现可靠的感知、决策与行动闭环提供支撑。NVIDIA Cosmos:面向物理 AI 的世界基础模型NVIDIA Cosmos 包含一系列先进的预训练多模态模型,为开发者构建虚拟世界、实现智能推理,提供了一套灵活、…- 0
- 0
-
多模态RAG不止知识问答:文搜图与图搜图的四种实现方案
引言在传统的RAG系统中,我们主要处理文本到文本的检索场景。然而,现实世界的知识库往往包含大量图片、图表等视觉信息。如何让用户通过自然语言查询找到相关图片(文搜图),或者通过一张图片找到相似图片(图搜图),成为多模态RAG需要解决的核心问题。核心挑战多模态检索面临的根本挑战是:如何让文本和图像在同一个语义空间中进行比较?传统的文本Embedding模型只能处理文本,图像特征提取模型只能处理图像,两…- 0
- 0
-
Pulsar特性在AI场景中的使用
没有意外,随着模型规模的持续增长和应用场景的日益复杂,AI Infra 也自然的从"单体架构" -> "分布式架构"进行演进,例如:在大模型训练和推理阶段,随着模型规模的增长,需要通过多维度并行技术(数据并行、张量并行、流水线并行等)并发使用数百甚至数千个 GPU 才能满足训练需求;在智能体应用阶段,从能对话、写文案的 Chatbot 到如今能自主规划…- 0
- 0
-
多模态检索新突破!Qwen3-VL-Embedding/Reranker AI 真正“看懂“你在搜什么,从图片到视频全拿下!
Qwen3-VL-Embedding 和 Qwen3-VL-Reranker:统一多模态表征与排序摘要2025年6月,Qwen 团队开源了面向文本的 Qwen3-Embedding 和 Qwen3-ReRanker 模型系列,在多语言文本检索、聚类和分类等多项下游任务中取得了业界领先的性能。2026年1月,该团队推出了 Qwen 家族的最新成员:Qwen3-VL-Embedding 和&…- 0
- 0
-
多模态文档解析模型进展:UNIREC-0.1B架构、数据情况、实际测试
UNIREC是一个0.1B参数量的模型,整体pipline遵循layout(直接拿的paddleocr的layout模型)+ VLM OCR(UNIREC-0.1B)。从这个模型可以看一个趋势,VLM-OCR正在朝参数小进化。下面来看简单看下模型架构、数据情况、实际测试,性能实际测下来一般,仅供参考。文档解析的开源项目模型技术方案都在《文档智能专栏》,如:再看两阶段多模态文档解析大模型-Paddl…- 0
- 0
-
DeepSeek OCR + mHC 将开启多模态“信息动力学”新范式
笔者昨晚突然想到 “融合DeepSeek OCR + mHC” 这个主题,兴奋的睡不着,连夜梳理。站在2026年初,回头看DeepSeek这两项看似孤立却内在契合的技术, 笔者隐约察觉到 DeepSeek可能的大棋局。OCR 是关于“感知”的革新,mHC 则是关于“认知”的重塑,两者融合,会带来一次多模态大模型向“信息动力学”本质的回归。一、 从符号逻辑到象形空间笔者在从DeepSeek…- 0
- 0
❯
购物车
优惠劵
搜索
扫码打开当前页

联系我们
返回顶部
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!
























