全部标签

多模态技术

阿里OmniTalker震撼发布！0.8B参数实现25FPS实时音视频生成，跨语言情感表达精准同步

导语：数字人技术迎来重大突破！阿里通义实验室最新推出的OmniTalker，是全球首个端到端的文本驱动说话人视频生成系统。仅需单段参考视频，即可实现中英文零样本风格复刻，支持愤怒、快乐等6种情感表达，25帧/秒的实时生成速度重新定义人机交互体验。本文将深度解析其双分支Diffusion Transformer架构，并展示如何用一句话生成演讲视频！正文：1. 技术颠覆性突破• …
前沿技术
- 12
- 0
charles25年5月17日
字节超快超强声音克隆 MegaTTS3, 声音克隆几乎一模一样, 可跨语言克隆.

ComfyUI 的 MegaTTS3 声音克隆节点https://github.com/billwuhao/ComfyUI_MegaTTS3声音克隆质量非常高, 支持中英文, 并可跨语言克隆.? 更新[2025-04-06]⚒️: 发布 v1.0.0.安装cd ComfyUI/custom_nodesgit clone https://github.com/billw…
前沿技术
- 11
- 0
charles25年5月17日
这可能是目前最强的TTS，10秒复刻你的声音

怪怪的TTS前段时间，我把公众号的作者音色朗读给关了。虽然听起来是我的声音，但总感觉怪怪的，比如蹩脚的英文发音，莫名其妙的停顿，以及偶尔给你来个突兀的语调变化。有时候我自己开车听文章，都会被吓得一激灵。我不禁在思考：这是我吗？索性，干脆就关了。直到最近，我体验到另一个TTS（Text-To-Speech，文本转语音）模型，这才改变我对AI配音的看法。这是我随手生成的片段，现在已经这么强了吗？停顿、…
前沿技术
- 7
- 0
charles25年5月17日
简单粗暴，4O终极魔法，这才是主体库的最终形态

写在前面：全文不到1000字，脑洞巨大。大家好，这里是有梗、有料、有干货的雪佬说，我是雪佬。有日子没更新了，最近雪佬一直在研究sora，当然，不是视频（我不会说它拉跨），没错，文生图，你没猜错。我个人感觉，这个才是主体库的最终形态，因为，实在是，太好用了！此句必须加个感叹号。先看一张图，高端的图，往往需要最简单的烹饪方式，啊呸，不对，最简…
前沿技术
- 8
- 0
charles25年5月17日
环境有限？没条件用一步到位的高端AI？AI内容深加工/平民AI高端玩法：AI生成各种图、视频、音频、文档、可视化图表、程序等等等

没条件用一步到位的高端AI？别担心！通过和专业工具结合，也能实现动动嘴皮子，用AI生成各种内容形式！比如各种图（功能型：流程图、结构图、思维导图；艺术类：数字绘画、风格迁移、商业设计；专业向：工程制图、矢量插图、漫画创作）、各种视频（制作类：动画、实拍合成、教育、商业视频；技术向：智能剪辑、特效合成、字幕生成）、各种音频（语音类：语音合成、语音克隆；音乐类：智能编曲、场景配乐）、各种文档（办公类：…
前沿技术
- 4
- 0
charles25年5月17日
Llama 4首测：Mac狂飙2万亿，多模态惊艳代码翻车！

Meta今天凌晨发布的Llama 4系列模型代表了AI领域的重大突破，首次采用混合专家(MoE)架构并原生支持多模态能力，为开源模型社区带来新的发展方向。本报告深入分析了Llama 4的三款模型规格、在苹果Silicon芯片上的性能表现、成本效益优势、本地部署可能性以及其代码生成能力的短板。值得注意的是，首批测试数据显示，三台M3 Ultra Mac可协同运行参数量达2万亿的Llama 4 Beh…
前沿技术
- 16
- 0
charles25年5月17日
Llama 4全网首测来袭，3台Mac狂飙2万亿！多模态惊艳代码却翻车

一共三款模型，首次采用MoE架构，开启了原生多模态的Llama时代！Llama 4 Scout，激活17B，16个专家，109B参数；Llama 4 Maverick，激活17B，128个专家，402B参数；Llama 4 Behemoth，激活288B，16个专家，2T参数。Llama 4发布后排名瞬间跃升，甚至超过了DeepSeek-V3，Meta再一次回到牌桌。业界首个1000万上下文，RA…
前沿技术
- 10
- 0
charles25年5月17日
Llama 4 发布：10M 长上下文,MOE,多模态,2 万亿总参数 SOTA 是亮点

Meta刚刚发布了Llama 4系列模型，这不仅是AI领域的又一次技术进化，更是多模态智能迈向实用化的重要一步。从Scout到Maverick，再到未发布的Behemoth，这些模型正在进化中重新定义AI的能力边界。这次Meta发布的Llama 4 家族包括三个模型，分别是：1. Llama 4 Scout：这是一个轻量级的多模态模型，拥有170亿活跃参数和16个专家。它的设…
前沿技术
- 7
- 0
charles25年5月17日
革新多模态AI：通过Qwen2.5 Omni的实时处理增强类人互动

Qwen2.5-Omni：一种多模态模型Qwen2.5-Omni 是一种端到端的多模态模型，旨在感知多种模态，包括文本、图像、音频和视频…人类通过多种感官体验世界。我们无缝地融合所见所闻，处理这些信息，并通过口头语言、书面文本或行动作出反应。多年来，人工智能（AI）一直努力复制这种整体理解和互动。我们看到强大的大型语言模型（LLMs）掌握文本，令人印象深刻的模型生成图像，还有一些模型转录语音。但真…
前沿技术
- 11
- 0
charles25年5月17日
阿里再开源多模态大模型Qwen2.5-Omni

多模态模型成为了研究与应用的热门领域。其中，阿里巴巴团队研发的 Qwen2.5-Omni 脱颖而出，以其创新的架构设计、卓越的性能表现以及丰富的应用场景，为多模态交互带来了全新的解决方案，引领着人工智能迈向更加智能、自然的交互时代。一、Qwen2.5-Omni 的架构创新Qwen2.5-Omni 采用了独特的 Thinker-Talker 架构，这一架构设计的核心在于实现了端到端的多模态感知与交互…
前沿技术
- 6
- 0
charles25年5月17日
沉寂了10个月，Midjourney V7 终于发布了

沉寂了差不多 10 个月左右，Midjourney 终于正式发布了其最新版本，V7模型。Midjourney V7 拥有全新改进的扩散模型架构，不仅在图像生成质量上取得显著提升，还在生成速度、输出分辨率、提示词控制和风格多样性方面实现了突破性进步。作为AI绘画领域的领军者，Midjourney V7 以其更高的图像质量、更快的生成速度和更强的个性化功能，再次刷新了AI绘画的边界。Midjourne…
前沿技术
- 6
- 0
charles25年5月17日
Midjourney V7来了！图更美、听得懂人话、渲染还省一半钱

等了那么久，V7 终于来了。在 GPT-4o 带着“图像时代”的锋芒横扫而来之后，Midjourney 的每一个动作，几乎都被放大在显微镜下——它会怎么回应？会不会跟上？还是就此被远远甩开？V7 没有喧哗登场，也没宣布什么划时代，但它递出来的东西，我觉得还是值得坐下来细看一看。这次更新，主要几个变化是这样的：它的图变得更“有感觉”了——不是简单的清晰度提升，而是纹理、结构、光感和人物细节都有了肉眼…
前沿技术
- 28
- 0
charles25年5月17日
文章和 PPT 配图有救了！SVG 绘图专家智能体大揭秘

本文分享如何使用 DeepSeek-V3-0324 和 Claude 3.5 或 3.7 绘制出高质量的图片，可以作为文章配图也可以为 PPT 配图，效率成倍增长。文章还介绍了原型图绘制、图片重绘修改和彩色报纸风的进阶案例。希望本文提供的技巧对大家有帮助，大家也可以修改提示词定制自己喜欢的风格。一、前言之前在《我是如何基于 DeepSeek-R1 构建出高效学习 Agent 的？》一文…
前沿技术
- 3
- 0
charles25年5月17日
用自定义插件生成一篇图文并茂的文章

本文是《5步教你创建大模型自定义插件》的下篇，主要就已有的自定义插件中的生图能力为例，演示如何生成一个图文并茂的文章。引言不了解自定义插件或者没看过上一篇文章的同学，请自觉复习！《5步教你创建大模型自定义插件》好，今天我们就已有的自定义插件中的生图能力为例，生成一个图文并茂的文章？一、先来说实现思路希望呈现的效果：只需输入一个标题，就可以生成一篇有小红书风格的文字，也有配图的文章。1、利用大模型生…
前沿技术
- 8
- 0
charles25年5月17日
阿里发布Qwen2.5-Omni-7B，听看读写超强性能

Qwen2.5-Omni-7B：开启多模态 AI 新时代的全能模型最近，通义千问团队推出的 Qwen2.5-Omni-7B 模型，是集文本、图像、音频、视频处理以及实时文本、语音回复生成于一体的多模态系统，大幅拓展了 AI 能力边界。接下来，带读者深入了解 Qwen2.5-Omni-7B 模型。一、Qwen2.5-Omni-7B概述 Qwen2.5-Omni是一款拥有70亿参数的多模态模…
前沿技术
- 8
- 0
charles25年5月16日
GPT-4o发布新的生图模型，实测目前地表最强

openai近期在chatgpt内发布了新的生图模型面向所有用户开放，根据博主的卡尔的AI沃茨测评结果显示，目前这个生图模型一定程度上让openai在主战场面对claude，grok，deepseek围追堵截下，可以稍稍缓一口气，综合能力暂时“遥遥领先”。对比领域GPT-4o 表现结果/特点写实风格 vs FLUX在人物特写表现惊艳，光效和氛围感强，但质感略逊…
前沿技术
- 4
- 0
charles25年5月16日
阿里重磅发布ChatAnyone！实时AI人物视频生成框架

概述ChatAnyone是阿里巴巴通义实验室推出的实时风格化肖像视频生成框架。通过音频输入，生成具有丰富表情和上半身动作的肖像视频。采用高效分层运动扩散模型和混合控制融合生成模型，能实现高保真度和自然度的视频生成，支持实时交互，适用于虚拟主播、视频会议、内容创作、教育、客户服务、营销、社交娱乐、医疗健康等众多场景。ChatAnyone支持风格化控制，可根据需求调整表情风格，实现个性化动画生成。抽象…
前沿技术
- 5
- 0
charles25年5月16日
你的AI搭子是怎样的“人”？ChatGPT 4o图文深度测试

各种AI工具使用久了，你会发现一件事：AI 不再只是冷冰冰的工具、程序代码，它们一个个都有了“性格”。有人一本正经、有人闷骚寡言、有人话痨体质，还有人居然会撩。随着ChatGPT 4o多模态模型的爆火，各种玩法层出不穷。【AIGC创意猎人】基于上面的做了个小测试——为市面上的主流 AI 工具画了一组赛博朋克风的人设卡片。一，想测试ChatGPT 4o的这种图文理解能力，排版设计的能力，还有画面一致…
前沿技术
- 7
- 0
charles25年5月16日
为体验GPT-4o生图功能，终于向OpenAI付了20刀，实测完，我劝设计师们：别慌！

一直用的GPT免费版，并非觉得20刀真的承受不了，而是没这个必要，国产的就能满足我的需求。但4o生图功能刷屏后，实在忍不住想试试，毕竟网上好多文章都是博主之间相互拿图就写，到处看到的好像都一样，我认为自身体验，很重要。于是，折腾账号花了半天，实测花了半天，因为4o太火，速率限制，5-7分钟能成功出一次图，运气好一次能出两张，出图成功还得看天意。所有内容，全是个人实测，没有任何盗图。想搞个实测也是真…
前沿技术
- 6
- 0
charles25年5月16日
Mistral OCR + 结构化输出：结合OCR与LLM，实现高效数据提取与组织！

导语：你是否需要一款工具，能够结合OCR的文本识别能力和大型语言模型（LLM）的理解能力，实现更准确、更有组织的数据提取？Mistral OCR来了！这款工具不仅支持从PDF和图像中提取文本，还能通过Pixtral-12B或Ministral-8B模型生成结构化JSON输出。无论是处理收据、合同，还是其他文档，Mistral OCR都能为你提供高效的数据提取解决方案。本文将为你全面解析…
前沿技术
- 5
- 0
charles25年5月16日
阿里发布Qwen2.5-Omni：全球首个端到端全模态AI，实时音视频交互能力碾压Gemini！

导语：AI技术再迎核爆级突破！阿里云通义千问团队今日重磅推出Qwen2.5-Omni——全球首个真正意义上的端到端全模态大模型。这款"六边形战士"不仅能同时处理文本、图像、音频、视频输入，还能实时生成语音回复，在多项基准测试中碾压Gemini-1.5-pro等国际竞品！本文将为你深度解析这款"中国智造"AI黑科技的五大革命性突破，并附上保姆级体验…
前沿技术
- 8
- 0
charles25年5月16日
OpenAI，来我司上班了

宏观趋势笔记君说：AI圈又爆啦！这次的主角不仅能言善辩，更是身怀“画”技绝活。3月26日，OpenAI更新了GPT-4o的文生图功能。就一天时间，这几年那些超火的照片、meme图全被它重画了一遍，其中最火的就是宫崎骏吉卜力画风的。其实，文生图早就不是啥新鲜事儿了。之前也有不少文生图产品能实现风格化效果。像Midjourney的年付费用户可以改照片风格，Stable Diffusion有专门训练成吉…
前沿技术
- 2
- 0
charles25年5月16日
Agent TARS：字节跳动版通用AI助手来了！

人工智能迅猛发展的今天，如何让 AI 更好地服务于我们的日常工作和生活，成为了众多科技公司探索的方向。继MCP、Manus大火之后，近日，字节跳动开源了一款名为 Agent TARS 的多模态 AI 助手，旨在通过自然语言指令，实现对电脑的智能化控制。本文将为您详细介绍 Agent TARS 的核心功能、应用场景以及如何开始使用。01‍Agent TARS 是啥东东？Agent TARS 是字节跳…
前沿技术
- 6
- 0
charles25年5月16日
阿里千问发布了能看首相算命的 AI 模型

千问太高产了，今天3月 28 日，阿里千问在官方 X 账户上宣布其推出了视觉推理模型 “`QVQ-Max`”[1]，这个模型不仅能看懂图片和视频，还能进行深度分析和推理（还能看首相~）。QVQ-Max 究竟有多强？1. 超强的观察力QVQ-Max 能快速识别图片中的各种细节：文字内容物体位置场景关系人物表情图表数据比普通的图像识别更厉害的是，它能把这些信息串联起来，理解图片想表达的含义。2. 专业…
前沿技术
- 11
- 0
charles25年5月16日