全部标签

多模态技术

Ferret-UI，大语言模型对手机UI的理解

随着移动设备的普及，手机UI屏幕成为用户与设备交互的主要界面。然而，现有的通用领域MLLM在理解和交互UI屏幕方面存在不足，难以提供精确的元素引用、定位和推理能力。本文旨在通过提出新的MLLM——Ferret-UI，来增强对移动UI屏幕的理解能力，提供指代、锚定和推理功能，以解决一般领域MLLM在UI屏幕互动上的不足。《Ferret-UI: Grounded Mobile UI Understan…
前沿技术
- 10
- 0
charles25年5月8日
Midjourney终于免费了，网站上线对所有人开放使用

1 Midjourney网站上线免费白嫖就在今天凌晨 Midjourney 宣布网站对所有人开放使用，并且开启了免费试用！而且这次免费还算比较慷慨，每个用户有25个免费额度可以使用，这下终于可以白嫖了。相比于在Discord中复杂难用的操作，网页版对于新手使用也是更加友好简单。Midjourney上线两年时间了，图片生成质量和刚开始的时候也是有着质的飞跃。目前为止依然还是最好…
前沿技术
- 12
- 0
charles25年5月8日
Midjourney推出独立网站，并提供 25 次免费使用机会

Midjourney，这个备受好评的AI图像生成服务，在最初几年主要在Discord平台使用后，去年为那些生成了一定数量图像的用户提供了一个“alpha”网站。现在，它向所有用户开放了网站，包括那些尚未注册的用户，还提供了有限的免费试用。Midjourney的联合创始人兼CEO David Holz在Discord上透露，新用户可以免费生成大约25张图像。这个新动作为新老用户探索平台功能提供了便利…
前沿技术
- 10
- 0
charles25年5月8日
从数据到应用，BiomedGPT带你领略医学AI的多模态力量

人工智能的快速发展正在逐步改变生物医学领域的研究和应用。然而，目前的大多数生物医学AI模型仍然是专门针对特定任务设计的，这种高度定制化的模型虽然在某些任务上表现出色，但在实际临床应用中却面临着整合不同数据类型和适应多样任务的挑战。在此背景下，通用的医学多模态模型逐渐受到研究者的关注。最近发表在《Nature Medicine》上的一篇研究文章详细介绍了BiomedGPT——一种多模态通用AI模型，…
前沿技术
- 8
- 0
charles25年5月8日
使用 Dify 和 AI 大模型理解视频内容：Qwen 2 VL 72B

写在前面最近一两周有好几位朋友线下聚的时候，聊起了端侧多模态模型，以及用端侧多模态模型做 RPA 和一些内容识别相关的业务场景。在展开聊这些内容前，我觉得或许可以先从“为个人偷懒”角度，来聊聊模型的使用：用模型替我刷视频，找到我忽略的细节。昨天晚上刷知乎的时候，在问题列表中看到了一个有趣的问题“如何看待2024年8月新华社记者采访《黑神话悟空》制作人团队？[1]”，点开问题看到了黑神话悟空制作人的…
前沿技术
- 6
- 0
charles25年5月8日
万物皆可AI化！刚开源就有12000人围观的OCR 扫描 PDF 开源工具！还可转换为MarkDown！

想必大家有些感受，PDF 文件已经成为我们工作生活中不可或缺的一个小内容。但当我们面对那些质量不佳、格式混乱的扫描版PDF时，提取其中的文字内容常常让人头疼。虽然OCR（光学字符识别）技术已经帮助我们大大简化了这一过程，但它的识别精度和排版格式往往令人不满意。这时候，你可能会希望有一种更智能、更高效的解决方案，能让PDF文件处理变得更简单和准确。本篇文章为大家分享一款基于 LLM 的 OCR 扫描…
前沿技术
- 8
- 0
charles25年5月7日
昆仑万维推出全球首款 AI 短剧平台 SkyReels，「一人一剧」时代来临

8月19日，昆仑万维发布全球首个集成视频大模型与3D大模型的AI短剧平台SkyReels。SkyReels平台集剧本生成、角色定制、分镜、剧情、对白/BGM及影片合成于一体，让创作者一键成剧，轻松制作高质量AI视频。这是一个2分半时长的短剧作品。「我们应该放下固化和抵抗的思维，拥抱这个碎片化信息时代。」 2023 年 12 月初，导演黄建新在北京电影学院北影大讲堂上…
前沿技术
- 8
- 0
charles25年5月7日
阿里全面开源mPLUG-Owl3！超长图像序列理解多模态大模型

多模态大语言模型（MLLMs）已经在处理单张图片任务上表现得非常出色。不过，当涉及到长图片序列的处理时，仍然有很多困难需要解决。为此，阿里推出了一款名叫mPLUG-Owl3的模型，它不仅功能强大，还能在需要结合图文知识、混合图文内容和处理长视频的场景中，更好地理解长图片序列。现有的一些多图输入方法存在两个主要问题：像LLaVA-Next-Interleave等模型将视觉特征直接与文本序列拼接，这在…
前沿技术
- 6
- 0
charles25年5月7日
腾讯 VITA这是要做科技界的“超级玩家”，一路“开挂”啊！

家人们，谁懂啊！腾讯多模态大模型 VITA 简直就是科技界的“绝绝子”！它能够同时处理视频、图像、文本和音频等多种模态的数据，这也太厉害了吧！就像是拥有了“超能力”，不管是图片、视频还是文字、音频，它都能轻松搞定，给用户带来全新的交互体验，真是一整个爱住了！VITA 基于强大的 Mixtral 8×7B 模型，还扩大了汉语词汇量，进行了双语指令微调，中英文都难不倒它，简直就是语言界的“学霸”！在语…
前沿技术
- 7
- 0
charles25年5月7日
GPT-4o背后端到端技术的力量

GPT-4o，代表着“omni”（全能），是OpenAI在多模态交互能力方面的一次重大突破，也标志着人工智能技术的一次质的飞跃。GPT-4o最大的突破在于第一次端到端的实现，从输入端到输出端是连贯的、整体性的，怎么去理解端到端背后的技术呢？‍‍‍‍‍‍‍1. 端到端的多模态融合理解能力根据OpenAI公开的信息，他们训练了一个跨越音频、视觉、文本模态的端到端模型，这意味着所有的输入与输出…
前沿技术
- 6
- 0
charles25年5月7日
Deep-Live-Cam: 一张图像让视频人物实时换脸

上周 GitHub 趋势榜第一的项目：https://github.com/hacksider/Deep-Live-CamDeep-Live-Cam 利用最前沿的 AI 技术，实现了实时换脸和视频深度伪造的突破。通过仅使用一张图像，即可实现高质量的人脸替换效果，极大简化了视频深度伪造的流程。特点：实时换脸使用单张图像进行实时换脸，并提供即时预览功能。一键生成视频深度伪造通过简单的操作，快…
前沿技术
- 12
- 0
charles25年5月7日
MiniCPM-V 2.6 面壁“小钢炮”，多图、视频理解多模态模型，部署和推理实战教程

MiniCPM-V 2.6是清华和面壁智能最新发布的多模态模型，亦称面壁“小钢炮”，它是 MiniCPM-V 系列中最新、性能最佳的模型。该模型基于 SigLip-400M 和 Qwen2-7B 构建，仅 8B 参数，但却取得 20B 以下单图、多图、视频理解 3 SOTA 成绩，一举将端侧 AI 多模态能力拉升至全面对标 GPT-4V 水平。MiniCPM-V 2.6 的主要特点包括：仅 8B …
前沿技术
- 8
- 0
charles25年5月7日
重塑 CLIP模型，jina-clip-v1 统一多模态模型，实现最先进表现！

对比语言-图像预训练（CLIP）被广泛用于训练模型，在共同的嵌入空间中对齐图像和文本，通过将它们映射到固定大小的向量。这些模型对于多模态信息检索及相关任务至关重要。然而，与专门的文本模型相比，CLIP模型在仅文本任务上通常表现不佳。这对于在仅文本和多媒体任务中保持分离的嵌入和模型的信息检索系统来说是不高效的。作者提出了一种新颖的多任务对比训练方法来解决这一问题，作者使用该方法训练jina-clip…
前沿技术
- 7
- 0
charles25年5月7日
多模态大模型的构成式思维链提示

多模态大模型的构成式思维链提示摘要：强大的视觉主干与大型语言模型（LLM）推理的结合，导致大型多模态模型（LMM）成为当前广泛视觉语言（VL）任务的标准。然而，最近的研究显示，即使是最先进的LMM，在捕捉属性和对象之间关系等构成性视觉推理方面仍然存在困难。一种解决方案是利用场景图（SG）——对象及其关系和属性的形式化表达，它已广泛用作连接视觉和文本领域的桥梁。然而，场景图数据需要场景图注释，这在收…
前沿技术
- 5
- 0
charles25年5月7日
小试牛刀 – MiniCPM-V-2.6在安卓手机运行

MiniCPM-V系列发布后，除了优秀的多模能力，最让我偏爱的是端侧部署能力，面壁智能的工程师fork llama.cpp做修改以支持多模MiniCPM-V。本人也一直在官方的llama.cpp项目提意见，但一直未做相应支持，这点上必须给面壁智能点赞。V2.5的时候折腾过，没成功，V2.6出来后又勾起来我的好奇心，今天终于走通了个大概吧？？特此记录，端侧设备：小米10-pro。① 首先依旧是下载模…
前沿技术
- 4
- 0
charles25年5月7日
MiniCPM-Llama3-V-2_5 微调记录

MiniCPM-V是面向图文理解的端侧多模态大模型系列。该系列模型接受图像和文本输入，并提供高质量的文本输出力，其最新模型MiniCPM-V-2.6性能更是提高。总参数量 8B，单图、多图和视频理解性能超越了 GPT-4V。在单图理解上1. https://github.com/OpenBMB/MiniCPM-V
前沿技术
- 7
- 0
charles25年5月7日
一键拥有你自己的 ChatGPT+StabilityAI+Midjourney 网页服务

ChatGPT-Midjourney一键拥有你自己的 ChatGPT+StabilityAI+Midjourney 网页服务（基于ChatGPT-Next-Web开发）Github地址https://github.com/Licoy/ChatGPT-Midjourney已支持• 原ChatGPT-Next-Web所有功能• Mid…
前沿技术
- 8
- 0
charles25年5月7日
AI发型师

项目简介Stable-Hair 是一种新颖的基于扩散的发型转移方法，可以稳健地转移各种现实世界的发型。我们展示了其在各种具有挑战性的发型上的性能，实现了高度详细和高保真度的传输，取得了令人印象深刻的结果，同时保留了原始的身份内容和结构。目前的毛发转移方法难以处理多样化且复杂的发型，从而限制了它们在现实世界中的适用性。在本文中，我们提出了一种新颖的基于扩散的头发转移框架，名为 Stable-Hair…
前沿技术
- 6
- 0
charles25年5月7日
AutoStudio连环漫画生成方案体验、原理解析

文章地址：https://arxiv.org/abs/2406.01388项目地址：https://github.com/donahowe/AutoStudio01 本地效果turn 1: a girl, a boy and a man walking on the road t…
前沿技术
- 5
- 0
charles25年5月7日
融合企业内部数据，赋能工业场景多模态智能决策

工业场景内，结构化数据与非结构化数据多散落在内部系统里，数据孤岛会造成企业分析决策的一大瓶颈，严重阻碍发展进程。如何利用好多模态数据进行分析是工业场景的重中之中，本文将从四个方面对其进行介绍。分享嘉宾｜胡也畅 Fabarta 企业智能分析平台（ArcPilot）产品负责人内容已做精简，如需获取专家完整版视频实录和课件，请扫码领取。01多模态决策智能的现状与路径1.1工业场景下…
前沿技术
- 4
- 0
charles25年5月7日
MAS | 让多智能体干活！做海南旅游官网优化方案，tools爬取网站，Agent分析输出优化方案！

以后MAS系列，部分内容，会在公众号发布，有个独立专栏！多智能体系统MAS(Multi-Agent System)的0-1学习项目，上线！至于什么是MAS，同时发出的另外一篇，有介绍！生产级AI多智能体系统MAS学习指南这是，长期项目！还没看的，上面看！雄哥一直都说，做任何实践，必须先得到！犹如，蜘蛛网，只有技能逐个握在手上，才能织成大网！我们从一个完整的生成式AI框架中，聚焦多智能体系统，拆开智…
前沿技术
- 7
- 0
charles25年5月7日
深度分析–多模态大模型在金融行业应用解决方案 2024

1、应用场景与技术架构选型知识密集型数字化应用金融行业因其高度的专业性和对精确度的严格要求，成为一个知识密集型的领域。它涵盖了广泛的子领域，包括银行业务、投资、保险、资产管理等，每个领域都有其独特的术语、规则和业务流程。在银行行业，理财产品经理需要在充分理解监管合规政策的前提下，设计有市场竞争力的产品；在证券行业，投研人员需要阅读大量的研报和资讯，做出对市场的判断，给客户提供有价值的投…
前沿技术
- 9
- 0
charles25年5月7日
多模态手机智能体 Mobile-Agent

导读本次分享将介绍阿里通义实验室最新的多模态手机智能体 Mobile-Agent 的相关工作。主要内容包括：1. 大模型智能体背景2. 多模态手机智能体 Mobile-Agent-V13. 多模态手机智能体 Mobile-Agent-V24. Mobile-Agent 开源实战分享嘉宾｜徐海洋阿里通义实验室高级算法专家编辑整理｜王…
前沿技术
- 7
- 0
charles25年5月7日
Stable Diffusion WebUI v1.10.0重大更新，支持SD3!

Hello，大家好！前不久，SDWebUI的作者AUTOMATIC1111终于把它更新到了v1.10.0，这次不仅修复以往的一些BUG，提升了一些性能，这次还支持了SD3_medium.safetensors模型以及SD3_LoRA模型，同时还支持T5系列的encoder模型，让我们一起来看看这次更新了哪些内容。更新内容总共有87项更新：1. 特性更新（Features）：总共3项；2. 次要更新…
前沿技术
- 8
- 0
charles25年5月7日