-
Github揽获1.6K星!南大、腾讯发布VITA-1.5: 迈向GPT-4o级实时视频-语音交互
近年来,多模态大语言模型(MLLMs)主要聚焦在视觉和文本模态的融合上,对语音的关注较少。然而,语音在多模态对话系统中扮演着至关重要的角色。由于视觉和语音模态之间的差异,同时在视觉和语音任务上取得高性能表现仍然是一个显著的挑战。论文标题:VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction论文链接:https:…- 3
- 0
-
2025 年10大AI 方向:高效推理、多模态等
随着2024年渐行渐远,我们迎来了一个充满AI创新与突破的年度回顾。从大型语言模型的进一步发展,到计算机视觉、AI安全等领域的革命性进展,研究社区在过去一年里确实做出了许多令人震撼的贡献。面对如此多的科研成果,哪些研究真正让我们停下来思考?哪些论文启发了我们,激发了“我如何将这些成果应用到自己的工作中?”的好奇心?在这篇文章中,我将分享我个人最喜欢的2024年AI研究论文,这些研究不仅令我兴奋,也…- 4
- 0
-
利用多模态RAG实现图文并茂的内容生成
前言传统的单模态RAG只能实现基于文本的检索召回,但是在企业级应用场景中,存在大量文本、图片、表格混排的复杂文档。对于这类文档的检索召回,单模态RAG难以给出精确有效的答案。比如在工业制造,工程师需要检索某个设备的安装方法,详细的文字描述不如一张安装流程图。或者工程师要检索某个传感器的性能参数,再详尽的文字介绍都不如一张清晰的表格。不仅是工业制造,包括生物医药、零售快消、汽车、教育等等行业,甚至是…- 4
- 0
-
2025年开篇|AI Agent与多模态大模型:智能革命的新纪元
回首2024年2024年,AI能力不断进化,各类AI应用也遍地开花,理解语义、生成高质量文本内容已成常态,AI情感陪伴与人类“共情”,AI助手为几百页英文判决做摘要,视频生成模型的高歌猛进使得AI闯入电影制作领域……如果说2023年是百模大战、千模大战,那2024年则是应用之战,新一代的AI技术正在开始进入普通人的工作与生活。下面这张图回顾了2024年主要的AI大事纪!如需高清原图,请后台私信“2…- 4
- 0
-
多模态RAG技术:从语义抽取到VLM应用与规模化挑战
导读 本次分享聚焦于多模态 RAG 的实现路径与发展前景。核心议题涵盖五方面:1. 基于语义抽取的多模态 RAG2. 基于 VLM 的多模态 RAG3. 如何 Scale 基于 VLM 的多模态 RAG4. 技术路线的选择5. 问答环节分享嘉宾|金海 Infiniflow 联合创始人编辑整理|王红雨内容校对|李瑶出品社区|DataFun0…- 4
- 0
-
戴上眼镜的Kimi能力超强,领先 o1 和 Gemini
Kimi 低调了一阵,但还是压不住自身的实力。最近 Kimi 帮自己戴上了一副特异功能眼镜,化身为眼镜小蓝人,眼镜不是赌神的作弊眼镜,而是一个Kimi最新推出的视觉思考模型。我们在 Kimi 官方的侧边栏可以看到戴眼镜的小蓝人,在各路模型在卷文字版的推理追赶 o1 的时候,Kimi又一次一马当先地做出了惊艳的视觉版的推理"o1"。而且 Kimi 的视觉能力是原生的,非常强悍。实…- 4
- 0
-
Gemini 2.0 Flash Thinking:谷歌推出实验性多模态推理模型,在快速生成的同时展示详细的思考过程
模型介绍:Gemini 2.0 Flash Thinking是谷歌推出的实验性AI模型,能够快速思考和解决问题。主要功能:模型展示了详细的思考过程,适用于数学、物理、创意写作等多个领域。使用限制:输入和输出有令牌限制,目前仅支持文本和图片输入,输出仅限文本。正文Gemini 2.0 Flash Thinking 是什么Gemini 2.0 Flash Thinking是谷歌推出的实验性AI模型,旨…- 3
- 0
-
快手可灵1.6正式上线,他们又一次超越了自己。
临近年末,各家AI视频公司好像也都着急过年,模型一个接一个更新。测不完,根本测不完。周二我刚发完谷歌Veo2的文章,就说过内部测评里除了它亲儿子,可灵1.5在盲测中评价最高。结果文章还挂在头条上躺着,昨天登录可灵一看,他们全新的1.6版本,就这么水灵灵的上线了。真实的商战,就这么朴实无华(狗头)。二话不说,直接开测。可灵网址在此:https://klingai.kuaishou.com/我花了几个…- 2
- 0
-
GPT-4o掀起全模态热潮!一文梳理全模态大模型最新研究进展
随着 Gemini 和 GPT-4o 等系列的发布,本文尝试总结一些最近全模态相关的工作。采用联合文本、图像、语音和视频进行训练,用一个端到端的模型可以支持文本、语音和图像三个模态,在支持图生文的同时也支持文生图。Emu论文标题:Emu: Generative Pretraining in Multimodality论文地址:https://arxiv.org/abs/2307.05222代码地址…- 2
- 0
-
国家电网发布国内首个千亿级多模态电力行业大模型
12月19日,国家电网有限公司在京发布“电力知识最全、参数规模最大、专业能力最强”千亿级多模态行业大模型——光明电力大模型。该模型作为能源电力领域的人工智能“专家”,为电网安全稳定运行、促进新能源消纳、做好供电服务提供“超级大脑”。为深入贯彻国家“人工智能+”行动,全面落实国家发展改革委专项任务、国务院国资委焕新行动和国家能源局专项部署,国家电网有限公司协同内外部单位,加快推进以大模型为代表的新一…- 2
- 0
-
初创公司 Odyssey 推出 AI 工具 Explorer了
创意产业需要通过新技术赋能,才能带来新的生机。在当今数字化和人工智能迅猛发展的时代,初创公司Odyssey凭借其最新推出的AI工具Explorer,再次证明了技术革新在创意产业中的巨大潜力。Explorer不仅是一款工具,更是一场革命。个人觉得它通过将文本或图像转化为逼真的3D渲染场景,为创作者提供了前所未有的创作自由度。技术与创新的融合Explorer的核心功能是将文本或图像转化为高度逼真的3D…- 3
- 0
-
利用 Gemini 构建 PDF 文档 AI 管道:原理、实现与应用(含代码)
当下文档处理的自动化需求日益增长,尤其是对于 PDF 文档的有效处理成为了关键任务(ParseStudio:使用统一语法简化PDF文档解析)。随着人工智能技术的迅猛发展,大型语言模型(LLMs)如 ChatGPT 等在自然语言处理领域取得了显著成果,而自动化文档处理也成为了这场技术革命的最大受益者之一。然而,传统的文本处理方式在面对 PDF 文档时面临诸多挑战,如非文本元素(如图像、表格等)的处理…- 2
- 0
-
一手实测豆包新发布的视觉理解大模型,他们真的卷起飞了。
人在字节火山发布会现场。眼睁睁看着他们发了一大堆的模型升级,眼花缭乱,有一种要一股脑把字节系的AI底牌往桌上亮的感觉。有语音的,有音乐的,有大语言模型的,有文生图的,有3D生成。真的过于豪华了,字节真的是,家大业大。。。但是看完了全场,我觉得最值得写一写,聊一聊的,还是这个:豆包视觉理解模型。效果不仅出奇的好,最关键的是,他们的价格。价格直接低85%,直接把视觉理解模型拉入了“厘时代”。字节,还是…- 2
- 0
-
百度飞桨:多模态大模型技术进展与产业应用实践
本次分享包括以下几大部分:1. 多模态大模型的能力与应用场景2. 多模态大模型架构的演变及其特点3. 多模态大模型开发套件 PaddleMIX4. Q&A分享嘉宾|王冠中 百度在线网络技术(北京)有限公司 资深研发工程师 编辑整理|Edith内容校对|李瑶出品社区|DataFun01多模态大模型的能力与应用场景首先来探讨多模态大模型的能力及…- 2
- 0
-
Kimi发布视觉思考模型k1,会看图做题,还能看图定位你在哪里
最近,大模型厂商们都在卯足了劲儿往视觉的方向使力,OpenAI上线了Sora,Google向开发者开放Gemini 2.0 Flash的多模态API,还演示了Project Astra在视觉理解等方面的能力。Kimi也整了个“新活”:视觉思考模型k1。根据介绍,这是一个在数理化领域全面对标OpenAl o1、GPT-4o以及 Claude 3.5 Sonnet的视觉思考模型。一个月前,Kimi推出…- 2
- 0
-
RAG用于翻译实现思路及多模态模型用于文档理解的几个核心问题
今天是2024年12月07日,星期六,北京,天气晴。我们今天来看看文档多模态的几个调研结论,说两个问题,一个是多模态模型LVLMs用于文档理解的几个问题,看看目前的几个研究点,一个是RAG用于翻译任务的思路。都很有趣,供大家一起参考。供各位参考,多思考,多总结,多实践;一、多模态视觉模型LVLMs用于文档理解的几个问题这段时间看了下多模态模型LVLMs用于文档理解的工作,主要总结为以下几个问题:其…- 3
- 0
-
Alibaba出品:OmniParser通用文档复杂场景下OCR抽取
本公众号主要关注NLP、CV、LLM、RAG、Agent等AI前言技术,免费分享业界实战案例与课程,助力您全面拥抱AIGC。三大OCR任务统一抽取文本识别关键信息提取表格识别Omniparser框架以及核心思想作者采用基于文本中心点的连贯输入和输出模式,在两个阶段,将同一文本划分为三个部分:在stage1阶段:结构中心点序列化(Structured points):即标记重要信息区域的中心位置,并…- 2
- 0
-
Salesforce AI:多模态训练技巧,超有用!
一、摘要BLIP-2是将预训练视觉模型与语言模型,通过Q-Former【Querying Transformer】将图片和文本两种模态桥接起来。利用已有的视觉模型和语言模型,来提升多模态的效果,同时降低视觉和语言模型的训练成本的一种框架二、模型结构BLIP-2 由预训练的Image Encoder,预训练的Large Language Model,和 Q-Former …- 2
- 0
-
内容AI: 目标驱动的图像生成
现有的文生图技术已经较为成熟,Flux、SD 3.5 和 Midjounery 等最先进文生图模型已经可以生成足够“以假乱真”的图像。在淘系内部,现有文生图模型已经被应用于各种需要创意图像的业务,例如 AI 会场等。但是,文生图技术的缺陷在于文本作为控制条件的指导性仍然较弱--例如我们无法仅利用文本生成一个带有“GitHub”样式的包包的营销图(见图1)。图1. 现有…- 4
- 0
-
AI大模型实现图片OCR识别
一.背景 OCR(Optical Character Recognition,光学字符识别)是一种将图像中的文字转换为机器编码文本的技术。这项技术可以自动读取纸质文档上的文字信息,并将其转换成电子格式,便于编辑、存储和检索。OCR 技术在很多领域都有广泛应用,比如数据录入、文献数字化、辅助阅读设备等。 LLM 助力 OCR 的方式 文本理解和后处理:语义理…- 2
- 0
-
使用Llama 3.2-Vision多模态LLM与您的图像聊天
介绍将视觉能力与大型语言模型(LLMs)结合的多模态LLM(MLLM)正在通过多模态LLM革命性地改变计算机视觉领域。这些模型结合了文本和视觉输入,展示了在图像理解和推理方面的出色能力。虽然这些模型以前只能通过API访问,但最近的开源选项现在允许本地执行,使其在生产环境中更具吸引力。在此教程中,我们将学习如何使用开源的Llama 3.2-Vision模型与图像进行聊天,你会对其OCR、图像理解和推…- 1
- 0
-
腾讯微信推出大模型 POINTS 1.5 了
视觉语言模型的开源中文数据集稀缺,想要做这块就得从互联网上收集大量图像,还得使用手动和自动方法的组合进行注释。视觉指令调谐集获得难度大,也造就了视觉语言模型成为研究的热点。近日,腾讯微信正式发布了最新的多模态大模型POINTS 1.5。个人觉得它不仅展示了腾讯在AI领域的深厚积累,也为行业带来了新的思考和机遇。创新架构与优化策略POINTS 1.5继续沿用了经典的LLaVA架构,该架构由视觉编码器…- 3
- 0
-
为什么生成式AI不擅长同时做两件事?
当下生成式 AI 以其惊人的能力不断吸引着我们的目光,从撰写连贯文本到生成奇幻图像,它似乎无所不能。然而,一个显著的局限却如影随形:当涉及到同时执行多种任务,特别是跨不同模态(如文本与图像)的任务时,生成式 AI 往往显得力不从心。这一现象引发了广泛的关注与思考,究竟是什么原因导致了生成式 AI 在多任务处理上的困境?一、表面现象与实际困境从表面上看,生成式 AI 模型(LLM的擅长与不擅长:深入…- 2
- 0
-
Milvus×Florence:一文读懂如何构建多任务视觉模型
近两年来多任务学习(Multi-task learning)正取代传统的单任务学习(single-task learning),逐渐成为人工智能领域的主流研究方向。其原因在于,多任务学习可以让我们以最少的人力投入,获得尽可能多的AI能力。比如ChatGPT,就是一种基于多任务学习的自然语言生成模型。通过海量的数据训练,以及针对特定任务的模型微调,ChatGPT可以拥有极高的性能以及广泛的通用性。这…- 3
- 0
❯
购物车
优惠劵
搜索
扫码打开当前页
联系我们
返回顶部
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!