全部标签

多模态技术

刚刚，李飞飞最新成果发布，手机也能跑亿级粒子的 3D 世界了｜附体验地址

拍一圈照片，就能生成一个可交互的 3D 世界，已经不是什么新鲜话题了。但问题是如何把一个大世界塞进普通人的手机浏览器里。就在刚刚，李飞飞旗下 AI 世界模型公司 World Labs 发布并开源了一个最新成果：Spark 2.0。这个专为网页端设计的动态 3D 高斯点云（3DGS）渲染引擎，让在任何设备的浏览器里流畅运行上亿粒子的超大 3D 场景，开始逐渐成为现实。为什么把亿级粒子的 3D 世界塞…
前沿技术
- 0
- 0
charles4月15日
豆包「打电话」升级 Seeduplex：周围再吵，只认准你的声音

最近在用豆包的语音通话功能，跟它聊 AI + OPC 的选题。说到一半，脑子里突然卡壳，想找个更准确的词，就停了大概一两秒。我心想完了，下意识等待着被它打断，因为以前用语音 AI 都是这样，你稍微一顿，它就急着往上接，搞得像在跟一个急性子同事抢麦。但这次它没有。它就安安静静等着，直到我把后半句说完，才开始回应。那个瞬间我愣了一下，感觉跟之前用的语音助手完全不是一回事。更让我意外的是这周我去公园里的…
前沿技术
- 1
- 0
charles4月15日
美团发布原生多模态 LongCat-Next：当视觉和语音成为AI的母语

物理世界的信息由图像、声音、文字交织而成。今天的大模型，本质上仍然是以语言为中心的建模系统，语言作为人类智慧符号化表述，在“压缩即智能”的范式下表现出强大的能力。但通往真正的物理世界智能，也许语言并不是世界的边界。视觉、语音与文本等多模态信号，实际上是对现实物理对象的不同侧面投影。这就引出一个根本问题：能否让 AI 像处理语言一样，用同一种方式简洁有效地处理物理世界的多种信息？如果能，…
前沿技术
- 0
- 0
charles4月15日
全解读｜智谱 GLM-5V-Turbo 发布，多模态 Coding 基模

MODEL今天，智谱发布 GLM-5V-Turbo，定位「面向视觉编程的多模态 Coding 基座模型」一句话概括：在 GLM-5-Turbo 的编程和龙虾能力基座上，加入了原生的视觉理解和推理能力模型能看懂设计稿、截图、网页界面，据此生成完整可运行的代码GLM-5V-Turbo Playground：左边是手绘草图，右边是生成的完整前端页面从 GLM-5 到 GLM-5V-Turbo先理一下产品…
前沿技术
- 0
- 0
charles4月15日
GLM-5V-Turbo：多模态Coding，图像即代码

Agent时代，模型能力由模型智能以及其处理的context容量两个维度定义。一个能够原生处理图片、视频、文本等多模态context，同时擅长复杂编程、长程规划、动作执行的Coding基座模型，将是所有AI原生应用的基石。今天，我们发布GLM-5V-Turbo，面向视觉编程打造的多模态Coding基座模型。GLM-5V-Turbo从预训练阶段深度融合视觉与文本能力，让编程不再局限于纯文本输入。模型…
前沿技术
- 0
- 0
charles4月15日
突破零样本TTS音色克隆上限：LongCat-AudioDiT 的声音克隆艺术

音频生成技术正在经历一场全新的范式迁移——从传统级联架构，逐步向端到端生成范式演进。长期以来，主流的做法是“曲线救国”：合成系统先将音频压缩成梅尔频谱图等中间表征，再依赖神经声码器“翻译”回波形。每一次转换都带来信息损失与误差累积，最终丢失了最需要保留的细腻音色与个性化细节。能不能让 AI 直接学会声音本身的规律，跳过中间环节？为破解这一技术瓶颈，美团 LongCat 团队正式发布 LongCat…
前沿技术
- 0
- 0
charles4月15日
千人千面，精控调色，更懂你的Wan2.7-Image来了

今天，阿里发布图像生成与编辑统一模型Wan2.7-Image告别AI标准脸，实现“千人千面”全新支持“调色盘”，精准控制色彩3K token超长文本渲染，可写满一页A4纸交互式编辑，哪里不爽点哪里具备文生图、图生组图、图像指令编辑和交互式编辑等全链路能力文生图升级亮点千人千面：虚拟角色捏脸功能为告别千篇一律的“AI脸”，Wan2.7-Image强化了虚拟形象捏脸功能，支持从骨相、眼眸到五官细微处的…
前沿技术
- 0
- 0
charles4月15日
震惊！即梦推出 CLI，Agent 一行命令生成 Seedance 2.0 视频，AI 视频井喷

SMARTFLOW AI INSIGHT即梦出 CLI 了：一行命令让任意 Agent 生成图片和视频Seedance 2.0 · 文生图/文生视频/图生视频 · 限时体验 · 2026.03.31 字节跳动的即梦 AI 发布了官方 CLI 工具——一行 curl 安装，让任意 Agent（Claude Code、Codex、自定义脚本）直接调用即梦的图片和视频生成能力。高级会员限时体验…
前沿技术
- 0
- 0
charles4月15日
千问发布Qwen3.5-Omni全模态模型，超越Gemini3.1 Pro？附实测~

千问又又又更新模型了，Qwen3.5-Omni模型，也就是全模态模型，这里的全模态，是指支持全模态输入，输出是文本或者语音。话不多说，先看效果，我让Qwen3.5-Omni模型分析了一下剑来阿良PV的相关内容，并且对比了Gemini3.1 Pro的效果，Qwen3.5-Omni更细致并且知道剑来~然后接入龙虾，我搞了个Skill，把罗永浩十字路口的2.5h的播客，直接4min速通，核心内容基本没…
前沿技术
- 0
- 0
charles4月15日
Google 和 Cohere 同日发布音频 AI 模型

Google 和 Cohere 在同一天发布了新的音频处理模型。Google 的 Gemini 3.1 Flash Live 主打自动化客户服务，Cohere Transcribe 则专注于语音转文字。两款模型都比前代有显著提升。这是 AI 从"看"到"听"的关键一步。Gemini 3.1 Flash Live：能听、能看、能懂情绪Google 这次有点东西…
前沿技术
- 0
- 0
charles4月15日
让“龙虾”帮你自动赚钱！OpenClaw Seedance 2.0 视频生成全攻略

千呼万唤始出来，终于肝完了龙虾（OpenClaw）实现seedance2.0视频一键生成本文将结合实战案例，介绍完整使用方法和心路历程，让大家感受下龙虾的强大服务器：适用于vps、自己电脑。Agent适用：openclaw、claude code 等一、源起这个事情起源于，推上一个大佬发的推文，看完后，我觉得专门开一个topic 来研究它结果龙虾出乎意料，顺利地将热门视频下载下来了，还…
前沿技术
- 0
- 0
charles4月15日
通用语音识别模型VibeVoice ASR：长达60分钟音频一次性“直出”结构化转写

语音识别技术在近年来取得了飞速发展，但在面对真实的复杂场景时，许多系统依然显得有些力不从心：漫长的会议、多人混杂的交谈、极具专业性的行业术语，或是中英夹杂的日常对话…… 传统的语音识别系统往往需要将长音频切分成一个个短小的片段，分别识别后再费力地“拼凑”起来。这种“化整为零”的方法不仅容易丢失上下文，还常常在谁说了什么、什么时候说的等问题上张冠李戴。近日，微软亚洲研究院发布了一款通用的语音识别模型…
前沿技术
- 0
- 0
charles4月15日
Agent 语音交互如何更稳、更快？一次高并发消息链路优化实践

随着大语言模型（LLM）、语音识别（ASR）、语音合成（TTS）等能力逐步成熟，AI Agent 开始从文本交互走向语音交互，典型场景包括 AI 教师、AI 情感聊天、AI 助手等。相比文本输入，语音更自然、更实时，用户可以直接通过说话完成提问、练习、任务触发与多轮对话，这也让“和 Agent 用语音对话”真正进入实际业务场景。但当 Agent 语音交互进入高并发场景后，很多团队会发现：最先遇到瓶…
前沿技术
- 0
- 0
charles4月15日
KDD 2026 | 小红书内容审核：Hi-Guard 让内容治理“知其然，更知其所以然”

引言：内容安全是平台治理的生命线，旨在精准识别与处置色情和暴力等不健康和违规内容。传统审核模型通过“黑盒”分数直接给出识别结论，在处理复杂语义和隐晦内容时和规则对齐方面存在困难。推动治理模型从“标签驱动”向“政策规则驱动”演进，同时具有政策规则的可解释性，已成为构建可信可泛化安全系统的核心方向。为解决上述问题，小红书内容理解团队提出层级式治理框架 Hi-Guard，通过分层流水线与路径感知的强化学…
前沿技术
- 0
- 0
charles4月15日
零帧起手 Codex × Figma 双向工作流实操

前几天我发了一篇关于 Figma 着急了！Codex 和 Figma 双向构建前端 UIAgent的完美融合" data-itemshowtype="0" linktype="text" data-linktype="2">取代Figma的新神器？Paper：设计、代码与AI Agent的完美融合的文章。很多人小…
前沿技术
- 0
- 0
charles4月15日
Seedance 2.0 正式发布

今天，我们正式发布新一代视频创作模型 Seedance 2.0。Seedance 2.0 采用统一的多模态音视频联合生成架构，支持文字、图片、音频、视频四种模态输入，集成了目前业界最全面的多模态内容参考和编辑能力。相比 1.5 版本，Seedance 2.0 的生成质量大幅提升，其在复杂交互和运动场景下的可用率更高，物理准确度、逼真度、可控性显著增强，更加贴合工业级创作场景的需求。其核心亮点如下：…
前沿技术
- 0
- 0
charles4月15日
文心大模型5.0正式版，上线！

今天，在百度文心Moment大会现场，文心大模型5.0正式版上线。文心大模型5.0正式版参数达2.4万亿，采用原生全模态统一建模技术，具备全模态理解与生成能力，支持文本、图像、音频、视频等多种信息的输入与输出。在40余项权威基准的综合评测中，文心5.0正式版的语言与多模态理解能力稳居国际第一梯队。图像与视频生成能力与垂直领域专精模型相当，整体处于全球领先水平。目前，用户可在文心APP、文心一言官网…
前沿技术
- 0
- 0
charles4月15日
NanoBanana 2.0 来了，对比前一代和即梦 5.0 lite，它依旧强的离谱

刚刚，Nano Banana 2.0 上线，一看到这个名字有点恍惚，我以为上个版本也是 2.0，专门去搜索了，才弄明白：25 年 11 月 20 号发布的是 nanobanana pro25 年 9 月发的 nanobanana而香蕉模型的 API 生图名称是 gemini-3-pro-image-preview这个混乱的命名让我想起了 GPT4.0 系列，好在不需要在对话框里去选择那…
前沿技术
- 0
- 0
charles4月14日
Seedance 2.0上线火山方舟体验中心，API即将开放

今天，豆包视频生成模型 Seedance 2.0 正式上线火山方舟体验中心。Seedance 2.0采用多模态音视频联合生成架构，支持文字、图片、音频、视频四种模态输入，集成了目前业界最全面的多模态内容参考能力。相比1.5版本，Seedance 2.0的生成质量大幅提升，其在复杂交互和运动场景下的可用率更高，物理准确度、逼真度、可控性显著增强，更加贴合工业级创作场景的需求。企业和个人用户…
前沿技术
- 0
- 0
charles4月14日
Google 发布首个全模态 Embedding 2 模型，文本图片音视频 PDF 统一到一个向量空间

Google 发布了一个新模型：Gemini Embedding 2。这是业界第一个原生支持五种模态的 Embedding 模型，能把文本、图片、视频、音频和 PDF 文档全部映射到同一个向量空间里。一个向量空间，五种数据类型。这个分量，做过 RAG 或语义搜索的，应该有所体会。先说 Embedding如果你不太了解 Embedding 是什么，可以这样理解：Embedding 就是把各种信息翻译…
前沿技术
- 0
- 0
charles4月14日
DeepSeek-OCR 2 来了，让 AI 也能像人一样，带着逻辑去看图

大家好，我是 Ai 学习的老章关于大模型 OCR，我之前写过不少： DeepSeek 最新开源OCR模型，实测，不如百度 DeepSeek-OCR本地部署（下）：vLLM离线推理为什么 DeepSeek-OCR 如此重要？【教程】DeepSeek-OCR本地部署（上）：CUDA 升级12.9，vLLM升级至最新稳定版撸了一个 OCR 大模型对比工具：DeepSeekOCR、PaddleO…
前沿技术
- 0
- 0
charles4月14日
月之暗面Kimi正式发布官方编程工具：Kimi Code

月之暗面已正式发布 Kimi 的编程工具：Kimi Code。据介绍，它不仅能在终端里直接运行，还能无缝集成到 VSCode、Cursor、JetBrains 和 Zed 等主流编辑器中。Kimi Code 可充分发挥 K2.5 的多模态优势，支持直接输入图片和视频进行编程辅助，并能自动发现并将你现有的技能迁移到新的工作流中。官方介绍称，Kimi Code Bench 是其内部的代码能力评测基准，…
前沿技术
- 0
- 0
charles4月14日
Gemini Embedding 2把多模态信息整合同一向量空间了，还需要多向量列吗？

昨天，谷歌正式发布首个原生多模态嵌入模型 Gemini Embedding 2。可以一次性把文本、图像、视频、音频、文档几大模态数据，全部映射进同一个统一的向量空间，做统一的管理与检索。那么问题来了，既然一个向量模型就能搞定全模态数据的语义表示，那向量数据库深耕多年的多向量列技术，还有存在的必要吗？01 Gemini Embedding 2，突破在哪里？Embedding模型的本质，是把…
前沿技术
- 0
- 0
charles4月14日
一篇文章讲清楚：到底什么是NotebookLM？除了PPT，它还能做啥？

上个月谷歌的Gemini和Nano Banana那一阵之后随之火爆全网的还有同为谷歌系产品的NotebookLM这期内容，我将为大家详细讲解：NotebookLM，到底是什么？以及，它都能干些什么～首先，什么是NotebookLM？通俗地解释，NotebookLM是每个人的一个专属AI资料助手。或者还可以用简单贴切的描述来进行解释：一个私人知识库。在这个知识库里，你能将一些你用得上的资料分类存放在…
前沿技术
- 0
- 0
charles4月14日