-
【AI生成图片】无需技术,一键生成非遗剪纸!
随着春节的来临,网上最近出现了更多的AI剪纸非遗效果图。星晴也做了几个非遗剪纸图案,相比之前的工具,生成的效果更好,且无需任何技巧。先看下效果吧。Part.01效果图苏州博物馆东方之门虎丘塔Part.02制作步骤登录堆友:https://d.design/上传参考图选用默认的提示词,点击“立即生成”就可生成剪纸图片。同理,上传东方之门建筑的图片,生成剪纸版东方之门。和虎丘塔剪纸版。是不是很简单,你…- 16
- 0
-
PipeCat – 打造实时语音 AI 应用的开源架构方案
Pipecat 是一个用于实时、多模式 AI 的编排框架。在此用例中,Pipecat 在 WebRTC 媒体流(和 Pipecat 客户端/服务器事件)和多模式实时 API 之间进行转换。图片来自@meng shao这位大神。代码库:https://github.com/pipecat-ai/gemini-webrtc-web-simple此示例展示了如何使用 Gemini Multimodal …- 11
- 0
-
爱奇艺基于多模态的台词说话人识别技术
01# 背景 影视剧剧本涵盖了整部剧的文本描述,包括台词及其说话人信息,对了解剧情有关键作用。然而,长视频平台上线的视频历经各种改版和剪辑处理,相应的剧本信息已缺失,台词说话人识别技术由此产生。台词说话人识别技术指的是从一集长视频里提取并识别不同说话人片段的技术,该技术能够实现对海量长视频内容的结构化管理,具备广泛的应用价值,例如在高光剧情检测业务中,台词说话人识别…- 14
- 0
-
多模态RAG破局:ImageSearch引领图像搜索新革命
今天,我要和大家探讨一种可能改变脑肿瘤诊断效率的技术——基于向量数据库的智能图像搜索。脑肿瘤的诊断往往因肿瘤大小和位置的多样性而极具挑战性。通常,专业神经外科医生的精准分析是保障 MRI 报告准确性的关键。然而,在许多发展中国家,缺乏熟练医生和系统化的肿瘤知识,这导致从 MRI 扫描中生成诊断报告的过程既耗时又繁琐。这是否可以通过技术手段改善呢?答案可能在于自动化的向量数据库搜索系统。通过语义搜索…- 12
- 0
-
V-RAG | 大型视觉文档检索与推理
为解决大型多模态模型(LMM)在图像检索和推理方面的局限性,研究人员提出了DocHaystack和InfoHaystack两个基准测试,并开发了视觉中心检索增强生成框架(V-RAG),该框架结合了多视觉编码器和相关性评估模块,在DocHaystack-1000和InfoHaystack-1000基准测试中Recall@1分别提升了9%和11%。 论文介绍 …- 10
- 0
-
统一多模态Embedding, 通义实验室开源GME系列模型
01背景随着多媒体应用的迅猛发展,用户产生的数据类型日益多样化,不再局限于文本,还包含大量图像、音频和视频等多模态信息。这为信息检索带来了前所未有的挑战与机遇。传统的信息检索模型多关注单一模态,如仅对文本或图像进行分析和搜索。然而,实际应用中,用户的查询往往涉及多种模态的信息。例如,用户可能上传一张图片并附上一段文字说明,期望找到类似的多模态内容。当前,多模态检索主要依赖于Embedding模型,…- 7
- 0
-
智谱悄悄上线清影2.0,四维能力已达T0,新晋AI视频性价比之神
最近,我们发现有一家视频模型在悄咪咪更新(偷笑)说的就是你,智谱清影 2.0!先说说结论,这次2.0模型的指令遵从、画面稳定、画面美感以及大幅度动作的能力都有提升, 效果很让人惊喜。根据官方数据上提升了38%,可以说清影2.0已经追上一线模型们了。4K,60帧,生成动效既稳定幅度又大,还有基础套餐无限生成,这性价比谁不眼馋吧!那接下来,我们就来仔细盘一波清影的能力到底有什么样的提升!P…- 6
- 0
-
智谱发布新模型,“实时多模态”惊艳所有人
2025年开春,智谱GLM系列模型上新升级了,这次发布可以总结为一句话:模型能力越来越强,对开发者越来越普惠。本次发布当中,尤其让我眼前一亮的是端到端多模态模型GLM-Realtime,简单上手测试之后,我觉得大模型已经进入到了next level,下面跟随K哥一起来抢先体验吧。01行业首个端到端多模态模型,初体验 根据智谱官方的介绍,GLM-Realtime是一个端到端多模态大模型,具有近乎实时…- 7
- 0
-
腾讯混元3D AI 引擎上线
腾讯混元3D AI创作引擎是一款基于先进人工智能技术的一站式、低门槛3D内容生产工具。它允许用户通过简单的提示词或图片,快速生成高质量的3D模型,从而极大地降低了3D创作的技术门槛,提高了创作效率。核心功能文生3D与图生3D:用户可以通过输入提示词或上传图片,快速生成对应的3D模型。生成的3D模型几何结构精细,纹理色彩丰富,支持多种纹理风格选择。3D编辑与纹理生成:引擎提供了丰富的3D编辑工具,包…- 9
- 0
-
阶跃星辰Step-1o重大升级,多模态视觉双榜夺冠,国内第一!
Step-1o 系列是阶跃星辰最新研发的原生端到端文本、视觉、语音三模态生成理解一体化模型。一个月前,我们发布了 1o 家族的首个模型 Step-1o Audio,这也是国内首个千亿参数端到端语音大模型,今天我们很高兴地为大家带来 Step-1o 系列的最新动态:新成员 Step-1o Vision 多模态理解大模型上线!Step-1o Audio 语音模型能力升级!相对于 Step-1V 系列多…- 6
- 0
-
Kimi 发布k1.5思考模型:首个达到o1满血水平的多模态模型,还有完整训练技术报告
1 月 20 日,Kimi发布了k1.5 多模态思考模型。这是继去年 11 月他们发布 k0-math 数学模型,12月发布 k1 视觉思考模型之后,连续第三个月带来 k 系列强化学习模型的重磅升级。Kimi k1.5的性能,如今已经全面追上现役全球最强模型——OpenAI o1满血版。具体来说,在Long CoT模式下,Kimi k1.5的数学、代码、多模态推理能力,达到了长思考SOTA模型Op…- 8
- 0
-
谷歌发布Gemini2.0,开启Agent新时代
在人工智能领域,技术的每一次飞跃都如同璀璨的星辰,照亮了人类探索未知的征程。谷歌,作为全球科技巨头,始终走在AI创新的前列。2024年12月12日,谷歌发布的Gemini2.0,无疑是在这一浩瀚星空中熠熠生辉的新星。它不仅代表了谷歌在AI技术上的深厚积累和前瞻视野,更预示着Agent新时代的全面开启。本文将从Gemini2.0的主要特点出发,深入探讨其背后的技术进步和应用前景,以及这一创新如何引领…- 7
- 0
-
我构建多Agent平台的探索与愿景
术语ReAct是结合推理和行动以提升智能体决策能力的框架Handoffs机制是指多Agent系统中任务在不同Agent之间平滑转移的过程概述最近会遇到跟dify或是fastGPT的对比问题,会同类对比,AIP是目前在维护的开源多Agent平台,类似于crewAI平台。每个设计师思路不一,Agent平台的概念容易与同类产品类比,其实不然。这里为了方便AI助手或是应用统称为Agent。这也是为什么会从…- 7
- 0
-
Github揽获1.6K星!南大、腾讯发布VITA-1.5: 迈向GPT-4o级实时视频-语音交互
近年来,多模态大语言模型(MLLMs)主要聚焦在视觉和文本模态的融合上,对语音的关注较少。然而,语音在多模态对话系统中扮演着至关重要的角色。由于视觉和语音模态之间的差异,同时在视觉和语音任务上取得高性能表现仍然是一个显著的挑战。论文标题:VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction论文链接:https:…- 9
- 0
-
2025 年10大AI 方向:高效推理、多模态等
随着2024年渐行渐远,我们迎来了一个充满AI创新与突破的年度回顾。从大型语言模型的进一步发展,到计算机视觉、AI安全等领域的革命性进展,研究社区在过去一年里确实做出了许多令人震撼的贡献。面对如此多的科研成果,哪些研究真正让我们停下来思考?哪些论文启发了我们,激发了“我如何将这些成果应用到自己的工作中?”的好奇心?在这篇文章中,我将分享我个人最喜欢的2024年AI研究论文,这些研究不仅令我兴奋,也…- 4
- 0
-
利用多模态RAG实现图文并茂的内容生成
前言传统的单模态RAG只能实现基于文本的检索召回,但是在企业级应用场景中,存在大量文本、图片、表格混排的复杂文档。对于这类文档的检索召回,单模态RAG难以给出精确有效的答案。比如在工业制造,工程师需要检索某个设备的安装方法,详细的文字描述不如一张安装流程图。或者工程师要检索某个传感器的性能参数,再详尽的文字介绍都不如一张清晰的表格。不仅是工业制造,包括生物医药、零售快消、汽车、教育等等行业,甚至是…- 6
- 0
-
2025年开篇|AI Agent与多模态大模型:智能革命的新纪元
回首2024年2024年,AI能力不断进化,各类AI应用也遍地开花,理解语义、生成高质量文本内容已成常态,AI情感陪伴与人类“共情”,AI助手为几百页英文判决做摘要,视频生成模型的高歌猛进使得AI闯入电影制作领域……如果说2023年是百模大战、千模大战,那2024年则是应用之战,新一代的AI技术正在开始进入普通人的工作与生活。下面这张图回顾了2024年主要的AI大事纪!如需高清原图,请后台私信“2…- 5
- 0
-
多模态RAG技术:从语义抽取到VLM应用与规模化挑战
导读 本次分享聚焦于多模态 RAG 的实现路径与发展前景。核心议题涵盖五方面:1. 基于语义抽取的多模态 RAG2. 基于 VLM 的多模态 RAG3. 如何 Scale 基于 VLM 的多模态 RAG4. 技术路线的选择5. 问答环节分享嘉宾|金海 Infiniflow 联合创始人编辑整理|王红雨内容校对|李瑶出品社区|DataFun0…- 4
- 0
-
戴上眼镜的Kimi能力超强,领先 o1 和 Gemini
Kimi 低调了一阵,但还是压不住自身的实力。最近 Kimi 帮自己戴上了一副特异功能眼镜,化身为眼镜小蓝人,眼镜不是赌神的作弊眼镜,而是一个Kimi最新推出的视觉思考模型。我们在 Kimi 官方的侧边栏可以看到戴眼镜的小蓝人,在各路模型在卷文字版的推理追赶 o1 的时候,Kimi又一次一马当先地做出了惊艳的视觉版的推理"o1"。而且 Kimi 的视觉能力是原生的,非常强悍。实…- 7
- 0
-
Gemini 2.0 Flash Thinking:谷歌推出实验性多模态推理模型,在快速生成的同时展示详细的思考过程
模型介绍:Gemini 2.0 Flash Thinking是谷歌推出的实验性AI模型,能够快速思考和解决问题。主要功能:模型展示了详细的思考过程,适用于数学、物理、创意写作等多个领域。使用限制:输入和输出有令牌限制,目前仅支持文本和图片输入,输出仅限文本。正文Gemini 2.0 Flash Thinking 是什么Gemini 2.0 Flash Thinking是谷歌推出的实验性AI模型,旨…- 4
- 0
-
快手可灵1.6正式上线,他们又一次超越了自己。
临近年末,各家AI视频公司好像也都着急过年,模型一个接一个更新。测不完,根本测不完。周二我刚发完谷歌Veo2的文章,就说过内部测评里除了它亲儿子,可灵1.5在盲测中评价最高。结果文章还挂在头条上躺着,昨天登录可灵一看,他们全新的1.6版本,就这么水灵灵的上线了。真实的商战,就这么朴实无华(狗头)。二话不说,直接开测。可灵网址在此:https://klingai.kuaishou.com/我花了几个…- 4
- 0
-
GPT-4o掀起全模态热潮!一文梳理全模态大模型最新研究进展
随着 Gemini 和 GPT-4o 等系列的发布,本文尝试总结一些最近全模态相关的工作。采用联合文本、图像、语音和视频进行训练,用一个端到端的模型可以支持文本、语音和图像三个模态,在支持图生文的同时也支持文生图。Emu论文标题:Emu: Generative Pretraining in Multimodality论文地址:https://arxiv.org/abs/2307.05222代码地址…- 8
- 0
-
国家电网发布国内首个千亿级多模态电力行业大模型
12月19日,国家电网有限公司在京发布“电力知识最全、参数规模最大、专业能力最强”千亿级多模态行业大模型——光明电力大模型。该模型作为能源电力领域的人工智能“专家”,为电网安全稳定运行、促进新能源消纳、做好供电服务提供“超级大脑”。为深入贯彻国家“人工智能+”行动,全面落实国家发展改革委专项任务、国务院国资委焕新行动和国家能源局专项部署,国家电网有限公司协同内外部单位,加快推进以大模型为代表的新一…- 8
- 0
-
初创公司 Odyssey 推出 AI 工具 Explorer了
创意产业需要通过新技术赋能,才能带来新的生机。在当今数字化和人工智能迅猛发展的时代,初创公司Odyssey凭借其最新推出的AI工具Explorer,再次证明了技术革新在创意产业中的巨大潜力。Explorer不仅是一款工具,更是一场革命。个人觉得它通过将文本或图像转化为逼真的3D渲染场景,为创作者提供了前所未有的创作自由度。技术与创新的融合Explorer的核心功能是将文本或图像转化为高度逼真的3D…- 5
- 0
❯
购物车
优惠劵
搜索
扫码打开当前页

联系我们
返回顶部
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!
























