全部标签

多模态技术

阿里开源“GPT-4o”，新Qwen2.5-Omni用“听说看想”感受真实世界

连续三天没睡觉，阿里新开源 Qwen2.5-Omni 把这周的 AI 浓度又推到了新高峰，多了一个 Omini 后缀的 Qwen2.5 能听音频、看视频和开口说话，Qwen Chat 新上线的视频、语音实时通话的背后模型就是它。看视频学冲咖啡的 GPT-4o 已经 low 了，学做菜才是正确打开方式。离谱的是这个模型大小才 7B，但凡有台 16GB 以上内存的电脑就可以无限使用。所以说这个小…
前沿技术
- 3
- 0
charles25年5月16日
试完GPT-4o画图，我第一次觉得人类设计师有点危险了

我作为得到AI学习圈的主理人，开圈第一天的直播里，就给大家演示过怎么用AI生成图片。当时我还专门用Midjourney，给大家做了一批手机壳的图。不过不得不说，那时候AI画图的门槛还是挺高的。我的小本本上记了很多优秀的指令词，爱学习的我还坚持每天去官网，找一张别人做的图，去研究人家的指令词里有什么奥秘。但这种“背题库”式的努力，在AI飞跃之后，其实一下子就被抹平了。很快，大家就又回到了同一起跑线上…
前沿技术
- 7
- 0
charles25年5月16日
第一个专为AI设计的“网站”(WebAgent)诞生了：这也许是一个里程碑

越来越多的智能体开始尝试直接从互联网获取信息，目前有很多技术可以用，比如Computer Use、Browser Use等。然而传统网站主要面向人类用户设计，AI 想要利用这些网站常常需要模拟人类浏览器行为（例如像爬虫那样解析 HTML 页面），效率低且复杂。为了解决这一痛点，也许我们需要构建一个WebAgent。本文将介绍什么是 WebAgent，以及第一个基于ANP构建的WebAgent的技术…
前沿技术
- 7
- 0
charles25年5月16日
用多模态模型，写新一代爬虫

字节有一个很实用但不怎么火的项目，叫 Midscene.js，Chrome 商店上的安装数仅有 1 万，它是一个由多模态模型驱动的前端自动化测试插件。自动化测试我平常很少用到，但我发现它特别适合用来写爬虫……Midscene.js 一共就三大 API：Action、Query、AssertAction 交互描述步骤并执行交互。例如，在 GitHub 上交互：查找 GitHub 上的 T…
前沿技术
- 9
- 0
charles25年5月16日
刚刚，OpenAI 发布生图神器狙击 Google！一句话 P 图奥特曼现场玩梗，免费能用

就在刚刚，OpenAI 宣布在 GPT-4o 模型中集成了迄今为止最先进的图像生成器。OpenAI CEO Sam Altman 在 X 平台继续夸夸群主上线，表示初次见到模型生成的图片时，难以相信是 AI 所为，并期待用户能发挥创意。新功能亮点如下：能够精确渲染文本内容支持多模态输入输出(文本、图像、音频)能理解复杂指令并结合上下文能创建具有真实感的第一人称视角图像遵循指令，可以处理上传的图片并…
前沿技术
- 6
- 0
charles25年5月16日
GPT-4o 生图实测：很强（附：20+场景示例 & 缺陷整理）

ChatGPT 凌晨发了新东西，通过 4o 模型，创建靠谱的图像：光影、文字、细节栩栩如生通过对话，可以进一步修改：遮挡、倒影等等都处理的非常到位图片质量相当高，可直接用于科普插画，比如：分光三棱镜继续对话，一致性相当好，比如让他画成书册：只能说：斗宗强者，竟恐怖如斯，OpenAI 的箱子里，还是有东西的。让我们细致看一看：本次更新，突破了以往的哪些边界。文本渲染绝佳一图胜千言，来感受一下。比如让…
前沿技术
- 9
- 0
charles25年5月16日
0.35秒OCR整页文档，比Qwen2.5 VL高出10%的文档转换多模态模型！

SmolDocling是一种多模态的图文到文本模型，专为高效的文档转换而设计，目前冲到huggingface热榜2th。SmolDocling由Docling团队，IBM Research联合推出，其在A100 GPU上平均每页仅需0.35秒，256M参数比Qwen2.5 VL（7B）更高效！SmolDocling功能特性：DocTags高效标记 —— 引入DocTags，这是一种与Docling…
前沿技术
- 12
- 0
charles25年5月16日
主流多智能体框架设计原理

一、介绍1.1 什么是智能体关于智能体的定义比较多，这里结合下anthropic与Google关于Agent的定义：智能体（Agent）是可以感知和理解环境并使用工具来实现目标的应用程序。从架构上，可以将智能体系统分为两类：工作流系统（Workflows） - 人做整体规划的决策，LLM是链路的一个节点LLM和各类工具通过预定义的代码路径进行编排提供可预测性和一致性适用于明确定义的任务2. 智能体…
前沿技术
- 5
- 0
charles25年5月16日
为了致敬Manus，我做了一款产品

最近看到腾讯张小珺的这次访谈，有很深的触动，其中不少金句，于是我想用来做一些金句卡片，就有了上图！　　这样的图片，可以使用工具来生成，黄叔为此做了个网站把它部署了起来，大家可以免费来玩：　　https://picquote.superhuang.me/　　那它如何实现呢？非常简单，下面是教程　　使用多模态复刻产品这个该创意来自@南瓜博士　具体原文可以看南瓜博士复现的文章：用 Trae 开发一个小小…
前沿技术
- 3
- 0
charles25年5月16日
一文搞懂多模态视觉大模型（CLIP和SAM）

多模态视觉大模型（Large Vision models）通过融合不同模态（如图像、文本）的信息实现更接近人类认知的智能。CLIP（Contrastive Language-Image Pre-training）和SAM（Segment Anything Model）作为代表性模型，分别从跨模态理解和图像分割方向推动了技术发展。一、视觉大模型什么是视觉大模型（Large Vision models…
前沿技术
- 9
- 0
charles25年5月16日
轻量级多模态代理框架 Agno 像搭乐高一样构建私有化AGI中台

Agno 是一个开源框架，旨在创建具有记忆、知识保留、工具集成和复杂推理等功能的高级 AI 代理。它使开发人员能够无缝集成任何大型语言模型 (LLM)，管理代理的状态和内存，甚至协调多个协同工作的代理。Agno 的真正力量在于它能够构建高性能、特定领域的 AI 代理，并提供在生产中监控和优化它们的工具。由于其足够简单，所以在你的业务场景中集成 Agno 几乎感受不到什么影响。任何你能想…
前沿技术
- 10
- 0
charles25年5月16日
解读： Cline v3.5 在MCP交互上的升级 – 视觉化输出

以下为个人观点解读：MCP交互升级 - 视觉化输出1. 核心变化：从纯文本到多模态展示Cline v3.5对MCP的升级让它从单纯的文本输出进化成了多模态交互。具体来说，视觉化输出的引入意味着你在与Cline对话时，不再只收到一串代码或文字，而是能直接看到：• 自动预览图片：比如你让Cline生成一张图（假设是用某个绘图工具），它会直接在对话框中显示这张图，而不是只给你一个文…
前沿技术
- 15
- 0
charles25年5月16日
基于多模态大语言模型的 PDF 转 Markdown 工具MarkPDFDown

项目简介基于多模态大语言模型的PDF转Markdown工具，高质量实现文档结构化转换MarkPDFDown 是一款智能PDF转换Markdown工具，通过先进的多模态AI模型，能够将PDF文档准确转换为结构清晰的Markdown格式，保留原始文档的排版、表格、公式等复杂元素。功能特性PDF转Markdown：支持任意PDF文档的格式转换多模态理解：利用AI理解文档结构和内容格式保留：完整保留标题、…
前沿技术
- 11
- 0
charles25年5月16日
10万+开发者关注！PP-DocBee破局文档理解痛点

一、中文PDF文档理解的不足缺乏中文语料、图像与文本质量参差不齐信息提取能力缺失场景多样性不足ViT+MLP+LLM架构的多模态大语言模型,在处理中文文档时无法满足实际应用中对中文文档理解的需求。二、PP-DocBee的解决方案 2.1 丰富布局的文档数据合成从学术论文、财务报告等专业领域筛选出复杂布局的中文PDF文档，利用文档解析工具构建包含文本、图像和公式等混合元素的单页…
前沿技术
- 9
- 0
charles25年5月16日
教程 | 使用大模型从图片中提取结构化数据

在快速发展的人工智能领域，将视觉功能集成到大型语言模型中，可以用于解读图片语义，从图片中提取出结构化数据。一、环境配置在Python中调用大模型，先要配置好相应的环境。1.1 安装python包pip3 install ollamapip3 install pydanticpip3 install instructor1.2 安装OllamaOllama是一款开源应用程序，可让您使…
前沿技术
- 20
- 0
charles25年5月15日
AI 时代的数据底座：火山引擎多模态数据湖的设计与实践

导读随着大模型的发展和应用，文本的边界被拓宽，图像、视频、语音各种模态涌现，并给数据管理、检索、计算带来巨大挑战。火山引擎多模态数据湖解决方案则可实现海量结构化、半结构化及非结构化数据的统一精细化管理，全方位兼容各类数据格式，为 LLM 预训练、持续训练和微调全程各个环节提供更好的数据支持。主要内容包括以下几个部分：1. 数据湖在 AI 时代下的难点和挑战2. 火山…
前沿技术
- 14
- 0
charles25年5月15日
Google 用文生图 AI 开始真正重塑行业｜9 个测试案例，带你看懂 Gemini 能力边界

自从在一支烟花群里和朋友测试起 Google 这个新工具，一上午就没停下来 WOC 的感叹。Google 总算放出了他们去年承诺的“可连续对话改图”的 Gemini 文生图能力。照例先给总体评价：1. Gemini （或者说 Imagen3）是当下最值得全设计行业，甚至全碳基社会使用的文生图 AI2. 它在自然语言的修改指令理解、材质质感复现、局部细节微调方面，达到了部分生产创…
前沿技术
- 15
- 0
charles25年5月15日
太疯狂了，Gemini可以用文本提示编辑图片了

google昨天更新了Gemini 2.0 Flash Experimental ，他多模态大幅提升，一句话总结：它能够用语言对一张图持续编辑调整，而且风格能够保持一致，图像不会产品畸变。Google AI Studio的产品经理宣布了他们还可以直接对视频链接进行对话分析。下面我测试了一些case，从效果上看确实很惊艳了，能够持续对一张图片做更改，而且还可以直接输入视频链接，识别链接中的…
前沿技术
- 15
- 0
charles25年5月15日
一手体验，豆包内测共享屏幕通话

去年10月份，字节举办一场豆包大模型相关的活动。活动中，他们不仅把大模型价格降下来了，还展示了豆包视觉大模型的解析能力；当时，我看到后表示惊讶：以后跟AI打电话，通过共享屏幕，它就能帮我理解一切，太快了。不过，当时展示的似乎更像一个炫技的demo，一直没开放出来；三个月过去了，期间看他们不断内测，今天终于拿到体验资格。这个能力到底是什么？简单讲，在与豆包进行语音通话时，界面会多出一个“共享屏幕”的…
前沿技术
- 11
- 0
charles25年5月15日
Gemini 2.0的“用嘴改图”终于上线了，这是AI绘图的新范式。

Google这两天动作蛮多。昨天刚开源Gemma3，然后今天夜里，鸽了N久的Gemini 2.0的原生多模态生图功能，也终于开放了。这也是我对Gemini 2.0最期待的功能。在出门回来，玩了一下午后，我觉得终于可以给你们分享一下，这玩意的有趣之处了。先给你们直观的感受一下，它能干啥。比如我现在有一张图，是一个很酷的小姐姐。我想让这个小姐姐，变成长头发。你无需PS，无需局部重绘，只需要一句话就行。…
前沿技术
- 12
- 0
charles25年5月15日
谷歌深夜放大招，Gemini 2.0 AI改变世界，设计师集体失业，图文并茂比人还强？新工具引爆行业地震

谷歌Gemini 2.0文生图技术深度评测：颠覆性多模态架构如何重构设计流程一、技术范式突破：从单点工具到全链路AI工厂最近，谷歌Gemini又放大招了！随着Gemini 2.0 Flash Experimental的更新，它不仅能“听懂”你的文字需求，还能直接生成图文内容，简直是创意工作者的福音。从写故事到设计海报，再到脑洞大开的视觉呈现，Gemini这次的多模态能力让人忍不住想喊一句：“woc…
前沿技术
- 7
- 0
charles25年5月15日
AI 时代的超级应用，是一个超级框

AI 时代的超级应用，不仅要深度思考，更要动手干活。今天，又一个国民级 AI 应用朝这个方向迈出了新的一步——夸克宣布升级，更新「AI 超级框」。「AI 超级框」拥有阿里通义系列模型支撑，具备多模态理解和深度思考能力，能理解需求，同时规划并执行多步骤任务。APPSO 实测发现，它既能协助进行创意构思与内容创作，又能为健康问题提供个性化解答；既可作为学习助手解题解惑，又能担任工作助理完成专业任务。…
前沿技术
- 8
- 0
charles25年5月15日
Google's AI发布会：多模态新作惊艳亮相

还是很开心看到老东家的 AI 越来越好～先看要点Gemma 3 多语言实力抢镜：Google 发布了参数规模从 1B 到 27B、上下文窗口达 128K 的多模态模型 Gemma 3，支持超过 140 种语言。社区对其有望在单个 GPU 或 TPU 上运行的潜力充满期待。Gemini 2.0 Flash 文生图更直接：Gemini 2.0 Flash 新增原生图像生成功能，让用户直接在模型内生成语…
前沿技术
- 7
- 0
charles25年5月15日
Google重磅更新，仿佛看到了AGI的影子！

Gemini是个水桶型模型，可能在数学，推理，创意上都比不上最好的模型。但是它每一项的能力都不差，甚至多模态理解处于全球领先行列，速度也是嘎嘎快。刚刚，Google宣布在Google AI Studio和Gemini API上开放Gemini 2.0 Flash的原生图像生成功能，供开发者测试和实验。也就是不止输入可以图文，现在模型可以无缝的融合图文同时输出了！不仅能理解文字，还能直接根据描述生成…
前沿技术
- 6
- 0
charles25年5月15日