-
Deep-Live-Cam: 一张图像让视频人物实时换脸
上周 GitHub 趋势榜第一的项目:https://github.com/hacksider/Deep-Live-CamDeep-Live-Cam 利用最前沿的 AI 技术,实现了实时换脸和视频深度伪造的突破。通过仅使用一张图像,即可实现高质量的人脸替换效果,极大简化了视频深度伪造的流程。特点:实时换脸使用单张图像进行实时换脸,并提供即时预览功能。一键生成视频深度伪造通过简单的操作,快…- 17
- 0
-
MiniCPM-V 2.6 面壁“小钢炮”,多图、视频理解多模态模型,部署和推理实战教程
MiniCPM-V 2.6是清华和面壁智能最新发布的多模态模型,亦称面壁“小钢炮”,它是 MiniCPM-V 系列中最新、性能最佳的模型。该模型基于 SigLip-400M 和 Qwen2-7B 构建,仅 8B 参数,但却取得 20B 以下单图、多图、视频理解 3 SOTA 成绩,一举将端侧 AI 多模态能力拉升至全面对标 GPT-4V 水平。MiniCPM-V 2.6 的主要特点包括:仅 8B …- 9
- 0
-
重塑 CLIP模型,jina-clip-v1 统一多模态模型,实现最先进表现 !
对比语言-图像预训练(CLIP)被广泛用于训练模型,在共同的嵌入空间中对齐图像和文本,通过将它们映射到固定大小的向量。这些模型对于多模态信息检索及相关任务至关重要。然而,与专门的文本模型相比,CLIP模型在仅文本任务上通常表现不佳。这对于在仅文本和多媒体任务中保持分离的嵌入和模型的信息检索系统来说是不高效的。作者提出了一种新颖的多任务对比训练方法来解决这一问题,作者使用该方法训练jina-clip…- 8
- 0
-
多模态大模型的构成式思维链提示
多模态大模型的构成式思维链提示摘要:强大的视觉主干与大型语言模型(LLM)推理的结合,导致大型多模态模型(LMM)成为当前广泛视觉语言(VL)任务的标准。然而,最近的研究显示,即使是最先进的LMM,在捕捉属性和对象之间关系等构成性视觉推理方面仍然存在困难。一种解决方案是利用场景图(SG)——对象及其关系和属性的形式化表达,它已广泛用作连接视觉和文本领域的桥梁。然而,场景图数据需要场景图注释,这在收…- 4
- 0
-
小试牛刀 – MiniCPM-V-2.6在安卓手机运行
MiniCPM-V系列发布后,除了优秀的多模能力,最让我偏爱的是端侧部署能力,面壁智能的工程师fork llama.cpp做修改以支持多模MiniCPM-V。本人也一直在官方的llama.cpp项目提意见,但一直未做相应支持,这点上必须给面壁智能点赞。V2.5的时候折腾过,没成功,V2.6出来后又勾起来我的好奇心,今天终于走通了个大概吧??特此记录,端侧设备:小米10-pro。① 首先依旧是下载模…- 10
- 0
-
MiniCPM-Llama3-V-2_5 微调记录
MiniCPM-V是面向图文理解的端侧多模态大模型系列。该系列模型接受图像和文本输入,并提供高质量的文本输出力,其最新模型MiniCPM-V-2.6性能更是提高。总参数量 8B,单图、多图和视频理解性能超越了 GPT-4V。在单图理解上1. https://github.com/OpenBMB/MiniCPM-V- 8
- 0
-
一键拥有你自己的 ChatGPT+StabilityAI+Midjourney 网页服务
ChatGPT-Midjourney一键拥有你自己的 ChatGPT+StabilityAI+Midjourney 网页服务(基于ChatGPT-Next-Web开发)Github地址https://github.com/Licoy/ChatGPT-Midjourney已支持• 原ChatGPT-Next-Web所有功能• Mid…- 8
- 0
-
AutoStudio连环漫画生成方案体验、原理解析
文章地址:https://arxiv.org/abs/2406.01388项目地址:https://github.com/donahowe/AutoStudio01 本地效果turn 1: a girl, a boy and a man walking on the road t…- 6
- 0
-
融合企业内部数据,赋能工业场景多模态智能决策
工业场景内,结构化数据与非结构化数据多散落在内部系统里,数据孤岛会造成企业分析决策的一大瓶颈,严重阻碍发展进程。如何利用好多模态数据进行分析是工业场景的重中之中,本文将从四个方面对其进行介绍。分享嘉宾|胡也畅 Fabarta 企业智能分析平台(ArcPilot)产品负责人内容已做精简,如需获取专家完整版视频实录和课件,请扫码领取。01多模态决策智能的现状与路径1.1工业场景下…- 7
- 0
-
MAS | 让多智能体干活!做海南旅游官网优化方案,tools爬取网站,Agent分析输出优化方案!
以后MAS系列,部分内容,会在公众号发布,有个独立专栏!多智能体系统MAS(Multi-Agent System)的0-1学习项目,上线!至于什么是MAS,同时发出的另外一篇,有介绍!生产级AI多智能体系统MAS学习指南这是,长期项目!还没看的,上面看!雄哥一直都说,做任何实践,必须先得到!犹如,蜘蛛网,只有技能逐个握在手上,才能织成大网!我们从一个完整的生成式AI框架中,聚焦多智能体系统,拆开智…- 9
- 0
-
深度分析–多模态大模型在金融行业应用解决方案 2024
1、应用场景与技术架构选型知识密集型数字化应用 金融行业因其高度的专业性和对精确度的严格要求,成为一个知识密集型的领域。它涵盖了广泛的子领域,包括银行业务、投资、保险、资产管理等,每个领域都有其独特的术语、规则和业务流程。在银行行业,理财产品经理需要在充分理解监管合规政策的前提下,设计有市场竞争力的产品;在证券行业,投研人员需要阅读大量的研报和资讯,做出对市场的判断,给客户提供有价值的投…- 19
- 0
-
多模态手机智能体 Mobile-Agent
导读 本次分享将介绍阿里通义实验室最新的多模态手机智能体 Mobile-Agent 的相关工作。主要内容包括:1. 大模型智能体背景2. 多模态手机智能体 Mobile-Agent-V13. 多模态手机智能体 Mobile-Agent-V24. Mobile-Agent 开源实战分享嘉宾|徐海洋 阿里通义实验室 高级算法专家 编辑整理|王…- 9
- 0
-
Stable Diffusion WebUI v1.10.0重大更新,支持SD3!
Hello,大家好!前不久,SDWebUI的作者AUTOMATIC1111终于把它更新到了v1.10.0,这次不仅修复以往的一些BUG,提升了一些性能,这次还支持了SD3_medium.safetensors模型以及SD3_LoRA模型,同时还支持T5系列的encoder模型,让我们一起来看看这次更新了哪些内容。更新内容总共有87项更新:1. 特性更新(Features):总共3项;2. 次要更新…- 9
- 0
-
多模态大模型数据处理策略总结:兼看RAG增强编程语言翻译任务的简单方案
今天是2024年7月31日,星期三,北京,晴。今天是2024年7月份的最后一天,时间过的真的太快了!我们来继续看看两个话题:一个是融合RAG增强不同编程语言之间的翻译效果,关于代码之间翻译的进展,刚好社区有人在提,所以特此来说说,流程很类似,也没太多新意,有点套领域的感觉。但可以看看在这个任务上,那种嵌入模型好一些,以及都有哪些好的代码模型效果更佳。一个是关于多模态的数据处理的一些维度和思路,这些…- 7
- 0
-
利用AI进行视频与文本处理:技术流程实现与应用场景分析
在当今的信息化社会中,视频和文本数据的处理和分析变得越来越重要。借助人工智能技术,我们能够高效地处理和分析这些数据,以提供更加智能化的服务。本文将基于以下流程图,详细讲解视频与文本处理的技术实现及其在实际应用中的场景。一、流程图概述这幅流程图展示了一个完整的视频与文本处理系统,从用户提出查询请求开始,到最终给出推荐结果或回答用户问题,具体分为以下几个步骤:视频查询处理文章查询处理文本分割与向量化向…- 5
- 0
-
只需将感知推理能力拆分,2B大模型就能战胜20B!国产新框架高效处理视觉任务
Prism团队 投稿至 凹非寺量子位 | 公众号 QbitAI 只要把推理和感知能力拆分,2B大模型就能战胜20B?! 上海AI Lab联合南京大学、香港中文大学等机构,共同推出了一套两阶段框架——Prism。 这一框架不仅显式地解耦了视觉语言模型(VLM) 的感知和推理,还提供了一种更高效的处理视觉语言任务的方案。 最终让2B VLM和ChatGPT的组合表现出相当于10倍参数量VLM的性能。 …- 2
- 0
-
Agent | 清华提出智能体IoA新框架:编织异构代理网络,实现协作智能
大家好!今天我分享的文章所属领域是多代理系统和大语言模型,作者针对现有多代理系统框架在集成第三方代理、模拟分布式环境和动态通信协调方面的局限性,提出了一种名为"代理互联网"(Internet of Agents,IoA)的新型框架,旨在实现更灵活和可扩展的LLM多代理协作。原文:INTERNET OF AGENTS: WEAVING A WEB OF HETEROGENEOUS…- 6
- 0
-
微软推出Glyph-ByT5-v2,支持10种语言高精度文字海报生成
“Glyph-ByT5-v2: A Strong Aesthetic Baseline for Accurate Multilingual Visual Text Rendering”目前AI在文生图领域已经日趋成熟,通过AI即可一键生成宣传海报。然而目前的AI模型大多只对英文支持较好,其他语言效果仍然有待提高。为了解决这个问题,近日微软联合清华、北大联合推出了一个多语言海报生成模型Glyph-B…- 5
- 0
-
腾讯新研究Follow-Your-Emoji:可生成面部说话视频的真人、卡通、雕塑、动物…
近日,由香港科技大学、腾讯混元已经清华大学联合推出了Follow-Your-Emoji,一种基于扩散的肖像动画框架,它使用目标地标序列为参考肖像制作动画。肖像动画的主要挑战是保留参考肖像的身份并将目标表情转移到此肖像上,同时保持时间一致性和保真度。为了克服这些挑战,Follow-Your-Emoji采用了两项精心设计的先进技术,以增强其稳定扩散模型的性能。该团队引入了一种新颖的表情感知地标,这是一…- 8
- 0
-
万字长文分享快手 Kolors 可图大模型应用实践
在企业提效方面,多模态能力同样具有重要意义。在 AICon 北京站活动中,我们邀请了快手「可图」大模型负责人李岩,他分享了主题为《快手「可图」文生图大模型应用实践》的演讲内容,以下为李岩演讲内容~期待对你有所启发!另外,在 8 月 18-19 日即将举办的 AICon 全球人工智能开发与应用大会上海站,我们也策划了【多模态大语言模型的前沿应用与创新】专题,目前已上线两个议题,字节跳动研究科学家冯佳…- 5
- 0
-
大模型创业:体感温度与实际温度
大模型赛道第二波追赶已经出现,因为第一波做的并没有太多超预期的表现。前两天作为资方在上海参加了奇绩的一个闭门交流会,闭门会请来了普林斯顿的AI Agent方向的算法专家 姚顺雨,整个会议也就围绕着大模型的种种技术和应用方向的问题展开,参会者基本上都是各个方向的创业者和寻求转型的技术人员,有一些是计算图形的出身,还有一些具身智能的,当然做广义AIGC+Agent的绝对意义上更多。说实话,整场会听下来…- 6
- 0
-
腾讯SEED-Story:生成丰富、叙事连贯及风格一致图文故事的大模型
SEED-Story由MLLM驱动,能够从用户提供的图片和文本作为故事的开始,生成多模态长篇故事,模型、代码与数据都已开源。生成的故事包括丰富且连贯的叙事文本,以及在角色和风格上保持一致的图片。故事可以跨越多达25个多模态序列,尽管在训练期间仅使用最多10个序列。SEED-Story训练过程包括三个阶段:在第一阶段,我们预训练一个基于SD-XL的去标记化器,通过接受预训练的ViT的特征作为输入来重…- 9
- 0
-
【LLM】通过文档截图嵌入统一多模态检索
一、结论写在前面论文标题:Unifying Multimodal Retrieval via Document Screenshot Embedding论文链接:https://arxiv.org/pdf/2406.11251项目链接:https://github.com/texttron/tevatro…- 10
- 0
❯
购物车
优惠劵
搜索
扫码打开当前页

联系我们
返回顶部
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!
























