全部标签

多模态技术

沉寂了10个月，Midjourney V7 终于发布了

沉寂了差不多 10 个月左右，Midjourney 终于正式发布了其最新版本，V7模型。Midjourney V7 拥有全新改进的扩散模型架构，不仅在图像生成质量上取得显著提升，还在生成速度、输出分辨率、提示词控制和风格多样性方面实现了突破性进步。作为AI绘画领域的领军者，Midjourney V7 以其更高的图像质量、更快的生成速度和更强的个性化功能，再次刷新了AI绘画的边界。Midjourne…
前沿技术
- 7
- 0
charles5月17日
Midjourney V7来了！图更美、听得懂人话、渲染还省一半钱

等了那么久，V7 终于来了。在 GPT-4o 带着“图像时代”的锋芒横扫而来之后，Midjourney 的每一个动作，几乎都被放大在显微镜下——它会怎么回应？会不会跟上？还是就此被远远甩开？V7 没有喧哗登场，也没宣布什么划时代，但它递出来的东西，我觉得还是值得坐下来细看一看。这次更新，主要几个变化是这样的：它的图变得更“有感觉”了——不是简单的清晰度提升，而是纹理、结构、光感和人物细节都有了肉眼…
前沿技术
- 22
- 0
charles5月17日
文章和 PPT 配图有救了！SVG 绘图专家智能体大揭秘

本文分享如何使用 DeepSeek-V3-0324 和 Claude 3.5 或 3.7 绘制出高质量的图片，可以作为文章配图也可以为 PPT 配图，效率成倍增长。文章还介绍了原型图绘制、图片重绘修改和彩色报纸风的进阶案例。希望本文提供的技巧对大家有帮助，大家也可以修改提示词定制自己喜欢的风格。一、前言之前在《我是如何基于 DeepSeek-R1 构建出高效学习 Agent 的？》一文…
前沿技术
- 3
- 0
charles5月17日
用自定义插件生成一篇图文并茂的文章

本文是《5步教你创建大模型自定义插件》的下篇，主要就已有的自定义插件中的生图能力为例，演示如何生成一个图文并茂的文章。引言不了解自定义插件或者没看过上一篇文章的同学，请自觉复习！《5步教你创建大模型自定义插件》好，今天我们就已有的自定义插件中的生图能力为例，生成一个图文并茂的文章？一、先来说实现思路希望呈现的效果：只需输入一个标题，就可以生成一篇有小红书风格的文字，也有配图的文章。1、利用大模型生…
前沿技术
- 7
- 0
charles5月17日
阿里发布Qwen2.5-Omni-7B，听看读写超强性能

Qwen2.5-Omni-7B：开启多模态 AI 新时代的全能模型最近，通义千问团队推出的 Qwen2.5-Omni-7B 模型，是集文本、图像、音频、视频处理以及实时文本、语音回复生成于一体的多模态系统，大幅拓展了 AI 能力边界。接下来，带读者深入了解 Qwen2.5-Omni-7B 模型。一、Qwen2.5-Omni-7B概述 Qwen2.5-Omni是一款拥有70亿参数的多模态模…
前沿技术
- 7
- 0
charles5月16日
GPT-4o发布新的生图模型，实测目前地表最强

openai近期在chatgpt内发布了新的生图模型面向所有用户开放，根据博主的卡尔的AI沃茨测评结果显示，目前这个生图模型一定程度上让openai在主战场面对claude，grok，deepseek围追堵截下，可以稍稍缓一口气，综合能力暂时“遥遥领先”。对比领域GPT-4o 表现结果/特点写实风格 vs FLUX在人物特写表现惊艳，光效和氛围感强，但质感略逊…
前沿技术
- 4
- 0
charles5月16日
阿里重磅发布ChatAnyone！实时AI人物视频生成框架

概述ChatAnyone是阿里巴巴通义实验室推出的实时风格化肖像视频生成框架。通过音频输入，生成具有丰富表情和上半身动作的肖像视频。采用高效分层运动扩散模型和混合控制融合生成模型，能实现高保真度和自然度的视频生成，支持实时交互，适用于虚拟主播、视频会议、内容创作、教育、客户服务、营销、社交娱乐、医疗健康等众多场景。ChatAnyone支持风格化控制，可根据需求调整表情风格，实现个性化动画生成。抽象…
前沿技术
- 4
- 0
charles5月16日
你的AI搭子是怎样的“人”？ChatGPT 4o图文深度测试

各种AI工具使用久了，你会发现一件事：AI 不再只是冷冰冰的工具、程序代码，它们一个个都有了“性格”。有人一本正经、有人闷骚寡言、有人话痨体质，还有人居然会撩。随着ChatGPT 4o多模态模型的爆火，各种玩法层出不穷。【AIGC创意猎人】基于上面的做了个小测试——为市面上的主流 AI 工具画了一组赛博朋克风的人设卡片。一，想测试ChatGPT 4o的这种图文理解能力，排版设计的能力，还有画面一致…
前沿技术
- 7
- 0
charles5月16日
为体验GPT-4o生图功能，终于向OpenAI付了20刀，实测完，我劝设计师们：别慌！

一直用的GPT免费版，并非觉得20刀真的承受不了，而是没这个必要，国产的就能满足我的需求。但4o生图功能刷屏后，实在忍不住想试试，毕竟网上好多文章都是博主之间相互拿图就写，到处看到的好像都一样，我认为自身体验，很重要。于是，折腾账号花了半天，实测花了半天，因为4o太火，速率限制，5-7分钟能成功出一次图，运气好一次能出两张，出图成功还得看天意。所有内容，全是个人实测，没有任何盗图。想搞个实测也是真…
前沿技术
- 6
- 0
charles5月16日
Mistral OCR + 结构化输出：结合OCR与LLM，实现高效数据提取与组织！

导语：你是否需要一款工具，能够结合OCR的文本识别能力和大型语言模型（LLM）的理解能力，实现更准确、更有组织的数据提取？Mistral OCR来了！这款工具不仅支持从PDF和图像中提取文本，还能通过Pixtral-12B或Ministral-8B模型生成结构化JSON输出。无论是处理收据、合同，还是其他文档，Mistral OCR都能为你提供高效的数据提取解决方案。本文将为你全面解析…
前沿技术
- 4
- 0
charles5月16日
阿里发布Qwen2.5-Omni：全球首个端到端全模态AI，实时音视频交互能力碾压Gemini！

导语：AI技术再迎核爆级突破！阿里云通义千问团队今日重磅推出Qwen2.5-Omni——全球首个真正意义上的端到端全模态大模型。这款"六边形战士"不仅能同时处理文本、图像、音频、视频输入，还能实时生成语音回复，在多项基准测试中碾压Gemini-1.5-pro等国际竞品！本文将为你深度解析这款"中国智造"AI黑科技的五大革命性突破，并附上保姆级体验…
前沿技术
- 6
- 0
charles5月16日
OpenAI，来我司上班了

宏观趋势笔记君说：AI圈又爆啦！这次的主角不仅能言善辩，更是身怀“画”技绝活。3月26日，OpenAI更新了GPT-4o的文生图功能。就一天时间，这几年那些超火的照片、meme图全被它重画了一遍，其中最火的就是宫崎骏吉卜力画风的。其实，文生图早就不是啥新鲜事儿了。之前也有不少文生图产品能实现风格化效果。像Midjourney的年付费用户可以改照片风格，Stable Diffusion有专门训练成吉…
前沿技术
- 2
- 0
charles5月16日
Agent TARS：字节跳动版通用AI助手来了！

人工智能迅猛发展的今天，如何让 AI 更好地服务于我们的日常工作和生活，成为了众多科技公司探索的方向。继MCP、Manus大火之后，近日，字节跳动开源了一款名为 Agent TARS 的多模态 AI 助手，旨在通过自然语言指令，实现对电脑的智能化控制。本文将为您详细介绍 Agent TARS 的核心功能、应用场景以及如何开始使用。01‍Agent TARS 是啥东东？Agent TARS 是字节跳…
前沿技术
- 4
- 0
charles5月16日
阿里千问发布了能看首相算命的 AI 模型

千问太高产了，今天3月 28 日，阿里千问在官方 X 账户上宣布其推出了视觉推理模型 “`QVQ-Max`”[1]，这个模型不仅能看懂图片和视频，还能进行深度分析和推理（还能看首相~）。QVQ-Max 究竟有多强？1. 超强的观察力QVQ-Max 能快速识别图片中的各种细节：文字内容物体位置场景关系人物表情图表数据比普通的图像识别更厉害的是，它能把这些信息串联起来，理解图片想表达的含义。2. 专业…
前沿技术
- 5
- 0
charles5月16日
阿里开源“GPT-4o”，新Qwen2.5-Omni用“听说看想”感受真实世界

连续三天没睡觉，阿里新开源 Qwen2.5-Omni 把这周的 AI 浓度又推到了新高峰，多了一个 Omini 后缀的 Qwen2.5 能听音频、看视频和开口说话，Qwen Chat 新上线的视频、语音实时通话的背后模型就是它。看视频学冲咖啡的 GPT-4o 已经 low 了，学做菜才是正确打开方式。离谱的是这个模型大小才 7B，但凡有台 16GB 以上内存的电脑就可以无限使用。所以说这个小…
前沿技术
- 1
- 0
charles5月16日
试完GPT-4o画图，我第一次觉得人类设计师有点危险了

我作为得到AI学习圈的主理人，开圈第一天的直播里，就给大家演示过怎么用AI生成图片。当时我还专门用Midjourney，给大家做了一批手机壳的图。不过不得不说，那时候AI画图的门槛还是挺高的。我的小本本上记了很多优秀的指令词，爱学习的我还坚持每天去官网，找一张别人做的图，去研究人家的指令词里有什么奥秘。但这种“背题库”式的努力，在AI飞跃之后，其实一下子就被抹平了。很快，大家就又回到了同一起跑线上…
前沿技术
- 7
- 0
charles5月16日
第一个专为AI设计的“网站”(WebAgent)诞生了：这也许是一个里程碑

越来越多的智能体开始尝试直接从互联网获取信息，目前有很多技术可以用，比如Computer Use、Browser Use等。然而传统网站主要面向人类用户设计，AI 想要利用这些网站常常需要模拟人类浏览器行为（例如像爬虫那样解析 HTML 页面），效率低且复杂。为了解决这一痛点，也许我们需要构建一个WebAgent。本文将介绍什么是 WebAgent，以及第一个基于ANP构建的WebAgent的技术…
前沿技术
- 5
- 0
charles5月16日
用多模态模型，写新一代爬虫

字节有一个很实用但不怎么火的项目，叫 Midscene.js，Chrome 商店上的安装数仅有 1 万，它是一个由多模态模型驱动的前端自动化测试插件。自动化测试我平常很少用到，但我发现它特别适合用来写爬虫……Midscene.js 一共就三大 API：Action、Query、AssertAction 交互描述步骤并执行交互。例如，在 GitHub 上交互：查找 GitHub 上的 T…
前沿技术
- 4
- 0
charles5月16日
刚刚，OpenAI 发布生图神器狙击 Google！一句话 P 图奥特曼现场玩梗，免费能用

就在刚刚，OpenAI 宣布在 GPT-4o 模型中集成了迄今为止最先进的图像生成器。OpenAI CEO Sam Altman 在 X 平台继续夸夸群主上线，表示初次见到模型生成的图片时，难以相信是 AI 所为，并期待用户能发挥创意。新功能亮点如下：能够精确渲染文本内容支持多模态输入输出(文本、图像、音频)能理解复杂指令并结合上下文能创建具有真实感的第一人称视角图像遵循指令，可以处理上传的图片并…
前沿技术
- 5
- 0
charles5月16日
GPT-4o 生图实测：很强（附：20+场景示例 & 缺陷整理）

ChatGPT 凌晨发了新东西，通过 4o 模型，创建靠谱的图像：光影、文字、细节栩栩如生通过对话，可以进一步修改：遮挡、倒影等等都处理的非常到位图片质量相当高，可直接用于科普插画，比如：分光三棱镜继续对话，一致性相当好，比如让他画成书册：只能说：斗宗强者，竟恐怖如斯，OpenAI 的箱子里，还是有东西的。让我们细致看一看：本次更新，突破了以往的哪些边界。文本渲染绝佳一图胜千言，来感受一下。比如让…
前沿技术
- 4
- 0
charles5月16日
0.35秒OCR整页文档，比Qwen2.5 VL高出10%的文档转换多模态模型！

SmolDocling是一种多模态的图文到文本模型，专为高效的文档转换而设计，目前冲到huggingface热榜2th。SmolDocling由Docling团队，IBM Research联合推出，其在A100 GPU上平均每页仅需0.35秒，256M参数比Qwen2.5 VL（7B）更高效！SmolDocling功能特性：DocTags高效标记 —— 引入DocTags，这是一种与Docling…
前沿技术
- 6
- 0
charles5月16日
主流多智能体框架设计原理

一、介绍1.1 什么是智能体关于智能体的定义比较多，这里结合下anthropic与Google关于Agent的定义：智能体（Agent）是可以感知和理解环境并使用工具来实现目标的应用程序。从架构上，可以将智能体系统分为两类：工作流系统（Workflows） - 人做整体规划的决策，LLM是链路的一个节点LLM和各类工具通过预定义的代码路径进行编排提供可预测性和一致性适用于明确定义的任务2. 智能体…
前沿技术
- 5
- 0
charles5月16日
为了致敬Manus，我做了一款产品

最近看到腾讯张小珺的这次访谈，有很深的触动，其中不少金句，于是我想用来做一些金句卡片，就有了上图！　　这样的图片，可以使用工具来生成，黄叔为此做了个网站把它部署了起来，大家可以免费来玩：　　https://picquote.superhuang.me/　　那它如何实现呢？非常简单，下面是教程　　使用多模态复刻产品这个该创意来自@南瓜博士　具体原文可以看南瓜博士复现的文章：用 Trae 开发一个小小…
前沿技术
- 4
- 0
charles5月16日
一文搞懂多模态视觉大模型（CLIP和SAM）

多模态视觉大模型（Large Vision models）通过融合不同模态（如图像、文本）的信息实现更接近人类认知的智能。CLIP（Contrastive Language-Image Pre-training）和SAM（Segment Anything Model）作为代表性模型，分别从跨模态理解和图像分割方向推动了技术发展。一、视觉大模型什么是视觉大模型（Large Vision models…
前沿技术
- 9
- 0
charles5月16日