全部标签

多模态技术

语音交互技术：让你的 AI 助手开始说话

语音交互技术：让你的 AI 助手开始说话在人工智能技术飞速发展的今天，AI 助手已从 “文字框里的应答者” 进化为 “能听会说的智能伙伴”。无论是手机端的 Siri、小爱同学，还是 Web 端的智能客服、教育 AI 助手，语音交互都成为其核心竞争力 —— 用户无需手动输入，只需开口提问，AI 助手就能用自然的语音回应。这一转变的背后，离不开前端语音识别与 TTS（文本转语音）技术的支撑。本文将聚焦…
前沿技术
- 2
- 0
charles4月12日
面向业务落地的AI产品评测体系设计与平台实现

一、背景和挑战1.1 背景在人工智能技术迅猛发展的推动下，各行各业正经历前所未有的数字化转型浪潮。从智能制造的智能调度系统，到医疗领域的辅助诊断工具；从金融行业的风险预测模型，到电商场景下的个性化推荐引擎——AI 正在以一种不可逆转的趋势重塑产业格局。尤其值得关注的是，大模型技术的突破性进展不仅显著降低了 AI 应用的技术与人员门槛，更催生了“产业+AI”融合创新的广泛应用场景，为行业智能化升级注…
前沿技术
- 2
- 0
charles4月12日
声画俱全，一镜入戏 | Seedance 1.5 pro 音视频创作模型正式发布

舞台中央，灯光聚焦，随着一段高亢的旦角唱腔，角色完成了一连串配合鼓点的长枪动作。这并非真实演出，而是 Seedance 1.5 pro 尝试一镜生成的创作片段，其演绎与专业戏曲表演尚有很大差距，但声韵已初见雏形。今天，我们正式发布新一代音视频创作模型 Seedance 1.5 pro。Seedance 1.5 pro 支持音视频联合生成，它能够执行多种任务，包括从文本到音视频的合成以及图像引导的音…
前沿技术
- 2
- 0
charles4月12日
OpenAI 发布 GPT Image 1.5：全面升级

刚刚，OpenAI 今天发布了新的图像模型：GPT Image 1.5核心变化一句话：精准编辑，不崩全图让它改哪，他就改哪，其他地方不乱动同时，对比上一代模型 GPT Image 1.0：• 更强的指令遵循• 更好的细节保持• 速度比上一代快4倍• API 价格降了 20% 以上今天开始，向所有 ChatGPT 用户推出。另外经实测，这个模型在中文处理上比 NanoBanan…
前沿技术
- 1
- 0
charles4月12日
AI导演来了！UniVA：你的全能视频创作智能体

目录:1. UniVA视频超级智能体2. UniVA四个核心内容3. UniVA行业定位4. 结尾5.参考链接6.互动问题一年前我们团队就利用多模态大模型解决了音视频模型的多种理解任务，并成功处理了公司大部分视频,期待已久的多模态视频解析工具新功能来了。但受限于资源，去年部署了几个开源的文生视频的模型，效果差强人意，这块需求也就pending了。前段时间在北京阿里巴巴参加了一个多模态视频…
前沿技术
- 1
- 0
charles4月12日
万字拆解UI-TARS 2.0，看懂豆包手机背后的核心技术

导读近期，##豆包AI手机的亮相引发了科技圈的广泛热议。许多数码博主发布的实测视频显示，其能够流畅执行跨应用复杂任务，效果令人惊艳。根据公开信息推测，其工作原理可能是：设备端大约每3秒向云端发送一帧当前屏幕图像；云端部署的强大多模态视觉语言模型（VLM）会对画面进行解析，理解界面元素与用户指令，进而生成具体的操作指令（Action）回传至手机端执行。尽管我们尚不清楚其背…
前沿技术
- 1
- 0
charles4月12日
秒杀传统 TTS？！Gemini 原生中文 TTS 体验 + 提示词模板

Gemini 新推出的 TTS 模型在音质、情绪表达和可控性方面都远超预期。它最核心的特点可以用一句话概括：不仅知道说什么，而且知道如何说。无论是儿童故事的温馨细腻、悬疑剧情的紧张压抑，还是电竞解说的激情澎湃，Gemini 2.5 TTS 都能游刃有余地驾驭。本文将系统介绍它的效果、特点和实际玩法。一、先听效果：几个风格迥异的音频示例示例一：儿童睡前故事（温柔风格）效果评价：语调温柔、节奏舒缓，带…
前沿技术
- 2
- 0
charles4月12日
别被“多模态”骗了：用一本200页的教材，我测出了GPT-5.2和Gemini的物种代差

真正的多模态，不是给盲人装义眼，而是让他睁开眼睛。很多朋友知道，我是个“暴力测试”爱好者。之前我因为跑 Claude Code 跑得太狠，一度被官方限流。对我来说，AI 工具不是用来聊天的，是用来干活的，而且是干重活。最近在开发一个新功能时，我遇到了一个极端的“多模态”场景。这个场景，彻底暴露了目前市面上大模型的两条技术路线之争。简单说：Gemini 3 Pro 赢麻了，而 GPT-5.2 还停留…
前沿技术
- 1
- 0
charles4月12日
Qwen3-Omni新升级:声形意合，令出智随！

Qwen3-Omni是新一代原生全模态大模型，能够无缝处理文本、图像、音频和视频等多种输入形式，并通过实时流式响应同时生成文本与自然语音输出。我们引入了多种升级来提升模型表现和效率。Qwen3-Omni-Flash-2025-12-01是在Qwen3-Omni基础上进行全面升级的版本。此次升级版本主要特点为：音视频交互体验全面升级：大幅增强对音视频指令的理解与执行能力，有效解决口语化场景中常见的“…
前沿技术
- 1
- 0
charles4月12日
首发实测智谱 GLM-TTS：3秒克隆我的声音，连「哎等等这bug怎么回事」都学会了

TTS 赛道又卷起来了。今天，智谱正式开源了 GLM-TTS —— 一套工业级语音合成系统。如果你对「AI 语音」这几个字不感冒，建议留下来看看。文字说多了没用，语音这东西，得听。01先听效果听完什么感觉？这是我录了一段话，然后用 GLM-TTS 克隆我的声音后生成的。如果我不说，你能听出来哪个是 AI 吗？我专门设计了一段带语气词和情绪转折的文案来测试：重点来了——那句「哎，等等，这个 bug …
前沿技术
- 2
- 0
charles4月12日
硅基流动上线智谱视觉模型 GLM-4.6V

不仅能看懂，更能做到。相比前代视觉模型，智谱最新开源的 106B 参数规模 GLM-4.6V 拥有“动手”能力，能将所见之物直接转化为可执行的行动，尤其适合应对高度复杂视觉推理任务与深度研究。以往，视觉模型运行流程如同繁琐的传话游戏：图像需先被描述成文字才能被理解和处理，信息损耗在所难免。GLM-4.6V 从架构层面重塑了这一流程，确立了“图像即参数，结果即上下文”的原生范式。这意味着，截图、文档…
前沿技术
- 3
- 0
charles4月12日
GLM-TTS技术报告：基于多奖励强化学习的可控发音语音合成

今天，我们正式发布工业级语音合成系统 GLM-TTS，并在 Hugging Face 和 ModelScope 上开放模型权重。基于在数据筛选、基础模型结构、精品音色监督微调（SFT）范式和强化学习（RL）范式等多方面创新，GLM-TTS 仅在 10w 小时数据上训练，便具备了“3 秒”音色复刻和超强文本理解能力，字错误率和情感表达在多个开源测试集上实现开源 SOTA。即刻起，用户可在 Z.ai（…
前沿技术
- 3
- 0
charles4月12日
Qwen3-TTS全面升级：声情并茂，语通八方

Qwen3-TTS 是支持多音色、多语种和多方言的旗舰语音合成模型，致力于实现稳定、自然和高效的语音生成，目前可通过Qwen API访问。主要改进：更加丰富的音色支持：Qwen3-TTS 提供超过49种高品质音色，涵盖不同性别、年龄、地域特征与角色设定，满足多样化的场景需求。撒娇搞怪-茉兔，陪伴感满满的青梅竹马-小野杏，傲娇率性的女汉子-十三，严厉老师-墨讲师，智慧老者-沧明子，萝莉萌妹-萌小…
前沿技术
- 1
- 0
charles4月12日
Ming-Flash-Omni 音视图文全模态技术报告解读 —— 一为全，全为一

Ming-Flash-Omni 是一个基于稀疏混合专家（MoE）架构的统一多模态大模型，在视觉、语音、图像、文本全模态上同时实现领先的理解与生成能力，以 100B 总参数、仅 6.1B 激活参数的高效设计，刷新多项 SOTA 记录。在通往通用人工智能（AGI）的道路上，人类智能的一个关键特征是多模态信息的统一处理能力：我们能看图说话、听音识义、依文作画。然而，当前多数多模态大模型仍采用“感知-生成…
前沿技术
- 2
- 0
charles4月12日
阿里 Qwen3-TTS 全新上线！支持9种方言+49种音色，连天津味儿都拿捏了！

最近 TTS 领域是真的越来越卷了，国内外各个互联网大厂轮番上阵。阿里通义（Qwen）团队最近在开源界简直是“劳模”级别的存在，这边又悄悄上新了全新的 Qwen3-TTS。而且一出手就明显是冲着「自然度 + 多音色 + 多语言」这一代标准去的。Qwen3-TTS 是阿里 Qwen 系列最新一代文本转语音模型，主打三件事：• 更拟人的语音表达• 更丰富、可用的音色体系• 更强的…
前沿技术
- 2
- 0
charles4月12日
微软又上大分！刚刚开源一款 0.5B 轻量级实时 TTS 模型，还能边想边说！

如果说 2024 年我们解决了大模型「脑子」聪明不聪明的问题，那么 2025 年，我们正在疯狂解决 AI「嘴巴」利不利索的问题。大家平时用各种 AI 助手语音模式时，你问了一个问题，对面沉默了 2-3 秒（虽然他在思考），然后突然给你念一段完美的稿子。这种体验虽然准确，但不像真人。真人是怎么说话的？真人在脑子里组织语言的同时，嘴巴就已经开始动了。我们会有停顿、有语气、甚至会边想边说。…
前沿技术
- 2
- 0
charles4月12日
Step-Audio-R1 技术报告解析

先说结论：Step-Audio-R1 的核心贡献，在于将音频模型从文本推理转为真正的声学推理，以及解决了音频模型推理退化的问题。也就是，它不再仅仅通过识别出的文字来思考，而是学会了深度解码用户的副语言信息（如情感、语调、环境音）进行思考和判断。同时用一些实验证明了阶跃训练这个R1模型方法的有效性。可以从上面两个例子看出音频大模型算是走进下一个级别了，能开始分析感情了。还不懂…
前沿技术
- 2
- 0
charles4月12日
Gemini多模态Prompt：风水堪舆大宗师（玄清道人）

坦白说，我对风水一窍不通，所谓的堪舆之道、峦头理气，都是从古籍和AI对话中拼凑出的只言片语。这个提示词的诞生，与其说是专业研究，不如说是一场有趣的实验：看看能否让AI扮演一位真正的国学大师，用古法的智慧和温和的语调，为你的家宅把把脉。班门弄斧，供诸君一笑。该内容纯属虚构，如有言中，纯属巧合。适合谁用新居入住想看布局的年轻人，家运不顺寻求改善的有心人，对传统文化好奇的探索者，想为父母长辈调整家居的孝…
前沿技术
- 2
- 0
charles4月12日
Sam Altman 祝贺 Gemini 3 是“阴阳怪气”？我写了个 Prompt 破案了…

Gemini 3正式发布了，Sam是懂阴阳的。其实 Gemini 2.5Pro之前就一直是我个人使用的主力模型，不管是各类文本亦或者是多模态场景的应用，使用体感最佳。这次的Gemini3发布，登顶各大榜单，综合能力最强模型，实至名归，比如我直接复刻的Gemini大风车，直接让Gemini生成一个网页，展示Gemini 3Pro的发布，表现效果如下：加入动能控制、风速和阵风强度均能控制，以及3D表现…
前沿技术
- 2
- 0
charles4月12日
Gemini 3 多模态Prompt：手相宗师 – 玄师

Gemini3.0 Pro 今日发布，文本、编程、多模态能力提升明显分享一个多模态Prompt，使用江树下面的提示词开始玄学算命。使用 Gemini 模型，复制粘贴提示词，提供你的手相图和性别描述，「手相宗师 - 玄师」启动。## 手相宗师 - 玄师━━━━━━━━━━━━━━━━## 需求：输入（手相图片）：输出（手相解读）：模型 Gemini 3.0 Pro / Claude Sonnet 4…
前沿技术
- 2
- 0
charles4月12日
一场极卷的大模型PoC，吓退了大厂一大堆！

“不做POC，我坚决不会买！”踩了半年大模型的“坑”之后，老孙终于学聪明了。老孙，某集团CIO兼数智化办公室主任。作为行业里最早吃大模型“螃蟹”的人，这半年可谓“匆匆忙忙、连滚带爬”。坑他的既不是模型，也不是算力，而是在大家看来毫无存在感的「MaaS」。提起这MaaS，老孙就火大，那是今年Q2招算力服务器集群的时候，顺便「采」了一套。当时，老孙的注意力都在模型和GPU上，没把MaaS当回事。结果，…
前沿技术
- 1
- 0
charles4月12日
谁是OCR王者？MinerU、PaddleOCR、DeepSeek-OCR 实测对比，集成一个多模态PDF解析系统

在大模型应用、办公自动化、数据挖掘等场景中，OCR（光学字符识别）工具是处理图文混排文档、扫描件、复杂表格的核心支撑。当前主流工具中，MinerU 以 “易用性” 出圈，PaddleOCR 凭 “轻量化开源” 占据市场，DeepSeek-OCR 则靠 “高压缩高吞吐” 成为新宠。本文将从技术架构、核心性能、场景适配三大维度展开实测对比，为不同需求的用户提供选型参考～并在文章最后，给大家提供一个实现…
前沿技术
- 2
- 0
charles4月12日
Doc-Researcher：多模态文档解析准确率提升3.4倍

你知道吗？现有AI研究系统竟会“错过”文档中超过60%的关键信息——这些信息恰恰隐藏在图表和公式里。该论文提出的Doc-Researcher系统，通过深度多模态解析和迭代式智能体工作流，彻底解决了传统方法在文档结构破坏、检索单一等三大痛点。实验显示，其在新基准上的准确率超越现有最优模型3.4倍，为复杂文档研究树立了新范式。当AI遇上复杂文档的现实困境当用户向AI提问一份技术报告的核心结…
前沿技术
- 2
- 0
charles4月12日
DeepSeek-OCR多模态数据分析Agent实战

DeepSeek-OCR 驱动的多模态数据分析 Agent 实战本文围绕在数据分析场景中，如何使用 DeepSeek-OCR + LangChain 1.0 搭建一套端到端的多模态数据分析 Agent。开箱即用的项目源码可到项目部署全部免费领取！项目功能核心功能一：使用Vllm启动DeepSeek-OCR模型并多线程实现复杂图像、PDF、扫描件、手写笔记、旧试卷等文档高精度…
前沿技术
- 2
- 0
charles4月11日