全部标签

多模态技术

NanoBanana 2.0 来了，对比前一代和即梦 5.0 lite，它依旧强的离谱

刚刚，Nano Banana 2.0 上线，一看到这个名字有点恍惚，我以为上个版本也是 2.0，专门去搜索了，才弄明白：25 年 11 月 20 号发布的是 nanobanana pro25 年 9 月发的 nanobanana而香蕉模型的 API 生图名称是 gemini-3-pro-image-preview这个混乱的命名让我想起了 GPT4.0 系列，好在不需要在对话框里去选择那…
前沿技术
- 2
- 0
charles4月14日
Seedance 2.0上线火山方舟体验中心，API即将开放

今天，豆包视频生成模型 Seedance 2.0 正式上线火山方舟体验中心。Seedance 2.0采用多模态音视频联合生成架构，支持文字、图片、音频、视频四种模态输入，集成了目前业界最全面的多模态内容参考能力。相比1.5版本，Seedance 2.0的生成质量大幅提升，其在复杂交互和运动场景下的可用率更高，物理准确度、逼真度、可控性显著增强，更加贴合工业级创作场景的需求。企业和个人用户…
前沿技术
- 2
- 0
charles4月14日
Google 发布首个全模态 Embedding 2 模型，文本图片音视频 PDF 统一到一个向量空间

Google 发布了一个新模型：Gemini Embedding 2。这是业界第一个原生支持五种模态的 Embedding 模型，能把文本、图片、视频、音频和 PDF 文档全部映射到同一个向量空间里。一个向量空间，五种数据类型。这个分量，做过 RAG 或语义搜索的，应该有所体会。先说 Embedding如果你不太了解 Embedding 是什么，可以这样理解：Embedding 就是把各种信息翻译…
前沿技术
- 4
- 0
charles4月14日
DeepSeek-OCR 2 来了，让 AI 也能像人一样，带着逻辑去看图

大家好，我是 Ai 学习的老章关于大模型 OCR，我之前写过不少： DeepSeek 最新开源OCR模型，实测，不如百度 DeepSeek-OCR本地部署（下）：vLLM离线推理为什么 DeepSeek-OCR 如此重要？【教程】DeepSeek-OCR本地部署（上）：CUDA 升级12.9，vLLM升级至最新稳定版撸了一个 OCR 大模型对比工具：DeepSeekOCR、PaddleO…
前沿技术
- 1
- 0
charles4月14日
月之暗面Kimi正式发布官方编程工具：Kimi Code

月之暗面已正式发布 Kimi 的编程工具：Kimi Code。据介绍，它不仅能在终端里直接运行，还能无缝集成到 VSCode、Cursor、JetBrains 和 Zed 等主流编辑器中。Kimi Code 可充分发挥 K2.5 的多模态优势，支持直接输入图片和视频进行编程辅助，并能自动发现并将你现有的技能迁移到新的工作流中。官方介绍称，Kimi Code Bench 是其内部的代码能力评测基准，…
前沿技术
- 3
- 0
charles4月14日
Gemini Embedding 2把多模态信息整合同一向量空间了，还需要多向量列吗？

昨天，谷歌正式发布首个原生多模态嵌入模型 Gemini Embedding 2。可以一次性把文本、图像、视频、音频、文档几大模态数据，全部映射进同一个统一的向量空间，做统一的管理与检索。那么问题来了，既然一个向量模型就能搞定全模态数据的语义表示，那向量数据库深耕多年的多向量列技术，还有存在的必要吗？01 Gemini Embedding 2，突破在哪里？Embedding模型的本质，是把…
前沿技术
- 3
- 0
charles4月14日
一篇文章讲清楚：到底什么是NotebookLM？除了PPT，它还能做啥？

上个月谷歌的Gemini和Nano Banana那一阵之后随之火爆全网的还有同为谷歌系产品的NotebookLM这期内容，我将为大家详细讲解：NotebookLM，到底是什么？以及，它都能干些什么～首先，什么是NotebookLM？通俗地解释，NotebookLM是每个人的一个专属AI资料助手。或者还可以用简单贴切的描述来进行解释：一个私人知识库。在这个知识库里，你能将一些你用得上的资料分类存放在…
前沿技术
- 2
- 0
charles4月14日
GenAI的多模态数据智能平台如何构建？

摘要：在snowflake的《人工智能+数据预测2025》报告中提到，“数据平台的下一个演进不仅关注格式化、存储和访问数据，还关注将其置于上下文中”。这里的说的上下文，是指大模型在输出的时候，需要给它提供的上下文参考或知识背景。所以说未来的数据平台的发展是为了大模型的生成而构成的知识而存在。本文将介绍，为了应对AI大模型的应用，数据平台在过去传统的湖仓一体的架构上演进的方向。企业落地知识库的困境A…
前沿技术
- 4
- 0
charles4月14日
GLM-OCR技术细节全公开

自 2 月初开源以来，GLM-OCR 受到了全球开发者、企业的广泛喜爱与集成，目前已在 Hugging Face 上获得 360 万下载，同时也衍生出了一些 Skills 和 App。今天，我们正式发布 GLM-OCR 技术报告，将模型「SOTA 文档理解能力」背后的技术细节，一一公开分享。欢迎大家广泛测试与集成。技术报告：https://arxiv.org/pdf/2603.10910Huggi…
前沿技术
- 3
- 0
charles4月14日
Midjourney V8 正式上线：高清模式、文字无错、生成速度提升5倍

相信很多关注AI圈的朋友，都知道有一个强大的Midjourney绘画模型，Midjourney模型可以理解是AI绘画的美学代表。就在刚刚，Midjourney再次投下重磅炸弹，V8 模型正式开启公测！如果说V7是在细节上的精修，那么V8简直就是一次全新的跨越。以前只是设计师能生成好的图片，这次更新模型更好理解提示词，那么普通用户也能生成高质量图片。这次更新的功能对普通用户非常友好，无论是生成封面图…
前沿技术
- 3
- 0
charles4月14日
我复刻了 Claude 刚发布的生成式 UI 交互！

前天 Anthropic 在 Claude 里面上线了基于生成式 UI 的新交互。可以帮你在聊天信息流里面用地吗可视化的方式介绍一些概念和信息，远比原来的纯文本要好理解。我之前就一直在看类似的方案，刚好 Claude 发了，我就感觉我也得加紧做了。同时刚好也可以逆向参考一下他的方案。疯狂 PUA 了两天 Codex 和 Claude 还真让我搞出来了！这个功能能让 AI 直接在聊天里画交互式图表，…
前沿技术
- 1
- 0
charles4月14日
Gemini Embedding 2：首个原生五模态 embedding 模型

Google DeepMind 今天发了 Gemini Embedding 2，第一个原生五模态 embedding 模型文本、图片、视频、音频、PDF，五种东西，首次编码进同一个向量空间它能处理什么五种模态，支持 100+ 语言：• 文本：最多 8192 个 input tokens• 图片：每次最多 6 张，PNG / JPEG• 视频：最长 128 秒，MP4 / MO…
前沿技术
- 5
- 0
charles4月14日
谷歌首个原生多模态向量模型发布：Agent 可以用文字搜图片、用图片搜视频了…

Gemini Embedding 2上线，统一图文音视频向量空间谷歌正式推出基于Gemini架构构建的首个原生多模态嵌入模型Gemini Embedding 2。该模型目前已通过Gemini API和Vertex AI开启公开预览。与以往纯文本基础模型不同，Gemini Embedding 2的核心突破在于将文本、图像、视频、音频和文档全部映射到同一个统一的向量空间中，并能跨越100多…
前沿技术
- 2
- 0
charles4月14日
AI真人数字人语音对话性能优化实践总结

本文总结了为解决 AI 数字人导购对话中的回答延迟感而进行的性能优化实践。初始的对话链路因 ASR、LLM 和 TTS 的串行叠加，导致平均端到端延迟高达 5.64 秒。为实现数据驱动的优化，首先搭建了一套覆盖全链路的高精度性能监控体系作为基础。核心解决方案是集成 Qwen Omni 一体化模型，旨在通过流式传输音频和文本来减少中间环节，同时在客户端设计了音频窗口缓冲机制以确保嘴型同步。最终，通过…
前沿技术
- 4
- 0
charles4月14日
“思考”更深，生成更准｜Seedream 5.0 Lite 发布

去年 9 月，我们发布统一编辑与生成的图像创作模型 Seedream 4.0，它融合了部分常识和一定的推理能力，受到不少用户的欢迎。今天，我们推出 Seedream 5.0 Lite 智能图像创作模型。相比 4.0 版本，它在理解、推理和生成方面全面提升，是一个“更聪明”且“更专业”的视觉创意伙伴。Seedream 5.0 Lite 带来的主要提升…
前沿技术
- 3
- 0
charles4月14日
Qwen-Image-2.0发布：中文生图彻底不拧巴了

今天阿里千问发布了个新东西，叫 Qwen-Image-2.0。说实话，我本来对这类新闻已经有点麻木了。毕竟现在各家大模型都在卷生图能力，今天你发个1.0，明天我发个2.0，看着都审美疲劳。但这次，真的有点不一样。先说结论Qwen-Image-2.0 的核心卖点就三个：支持 1K 长文本指令——这是最炸的中文文字生成能力很强——这是最实用的同时支持生图和图片编辑——这是最完整的这三个点组合在一起，基…
前沿技术
- 3
- 0
charles4月14日
对话离哲：企业AI告别「对话玩具」，多模态记忆是分水岭

初见离哲（本名占超群，质变科技创始人兼CEO）时，他习惯性地用双手比划，仿佛在将空气中无形的碎片聚拢、串联。“人的记忆是碎片的，”他说，“而无数碎片化的知识，就像无数溪流汇成湖。”这形象地解释了质变科技核心产品“记忆湖（MemoryLake）”的由来，也指向了当前企业AI升级中最关键的挑战与机遇。如今，企业AI正面临一个分水岭：一边是仅能处理对话的“智能玩具”；另一边，则有望成为能持续理解、学习并…
前沿技术
- 3
- 0
charles4月14日
Qwen-Image-2.0: 字字清晰，张张细腻

我们推出Qwen-Image-2.0，新一代图像生成基础模型。Qwen-Image-2.0主要特色包括：更专业的文字渲染：1k token指令支持，直出专业信息图，包括PPT/海报/漫画等。更细腻的真实质感：2k分辨率支持，细腻刻画写实场景，包括人物/自然/建筑等。更强的语义遵循：理解生成一体化，生图编辑二合一。更轻量的模型架构：更小模型，更快速度。阿里云百炼上已开通API邀测，开发者也…
前沿技术
- 3
- 0
charles4月14日
多模态文档智能解析最新开源进展：GLM-OCR方法概述

继续跟进【文档智能】解析进展，继《多模态文档智能解析开源进展：针对形变文档优化的PaddleOCR-VL-1.5架构改进点》、《多模态文档智能解析持续开源进展：Youtu-Parsing模型架构、数据、训练方法》等开源后，这周又开源了一个GLM-OCR模型，从技术路线上，仍然是内卷式的重复造轮子，其解析pipeline遵循layout+vlm的两阶段方式，即：layout部分（模型使用的是padd…
前沿技术
- 2
- 0
charles4月14日
用AI做深度用户访谈，获蓝驰、高瓴、王慧文投资

「暗涌Waves」独家获悉，一家成立刚不过4个月的AI-Native用户研究平台Trooly.AI已完成近千万美元的种子轮融资，投资方包括蓝驰创投、高瓴创投和王慧文。与市面上无数“超级个体”、“虚拟陪伴”、“碳基硅基共生世界”的宏大叙事不同，Trooly.AI想要用AI实现真实的商业闭环。其核心产品面向有用户调研需求的B端客户，通过多模态Voice Agent技术，专注45分钟左右的深度定性用户访…
前沿技术
- 3
- 0
charles4月14日
DeepSeek-OCR 2重磅发布:让AI像人一样读懂复杂文档

1 月 27 日，DeepSeek 团队发布《DeepSeek-OCR 2: Visual Causal Flow》论文，并同步开源 DeepSeek-OCR 2 模型。这是对去年 10 月发布的 DeepSeek-OCR 模型的重大升级，通过引入全新的 DeepEncoder V2 架构，实现了视觉编码从“固定扫描”向“语义推理”的范式转变。传统 OCR 的困境：机械扫描遇上复杂文档想象一下…
前沿技术
- 4
- 0
charles4月14日
LingBot-Depth 正式开源：让机器人“看清”物理世界

今天，我们正式开源了 LingBot-Depth 空间感知模型。不同于数字世界，具身智能的落地高度依赖物理空间信息，空间智能是其在现实场景落地应用的核心关键，而视觉维度下支撑空间智能的重要桥梁正是距离与尺度（Metric Depth）。基于这一核心需求，空间感知模型 LingBot-Depth 应运而生。LingBot-Depth 是一种面向真实场景的深度补全模型，依托奥比中光 Gemini 33…
前沿技术
- 3
- 0
charles4月14日
一文带你读懂DeepSeek-OCR 2的细节！附实测！

DeepSeek太秀了，更新了DeepSeek-OCR-2，又是高立意的一篇文章，验证了了LLM架构有作为VLM编码器的潜力，有远大的理想。我之前分享过DeepSeek-OCR相关内容，见DeepSeek又开源，这次是OCR模型！附论文解读！再谈DeepSeek-OCR的信息压缩论！附DeepSeek-OCR与PaddleOCR实测对比！DeepSeek OCR的高OCR准确率，全是幻觉？咱们今天…
前沿技术
- 2
- 0
charles4月14日
DeepSeek出品，必是精品！DeepSeek-OCR 2发布：让LLM像人一样读懂复杂文档，效果超Gemini 3 Pro

DeepSeek 在25年10月份发了deepseek-ocr的论文，当时引爆了网络，DeepSeek-OCR是一种探索通过光学2D映射来压缩长上下文的新方法。我之前的文章：DeepSeek OCR论文引爆网络！Andrej Karpathy：我很喜欢；马斯克：未来99%都是光子DeepSeek王炸：10倍压缩率，97%解码精度！上下文光学压缩登场刚刚DeepSeek又推出了DeepS…
前沿技术
- 3
- 0
charles4月14日