全部标签

多模态技术

Kimi 发布k1.5思考模型：首个达到o1满血水平的多模态模型，还有完整训练技术报告

1 月 20 日，Kimi发布了k1.5 多模态思考模型。这是继去年 11 月他们发布 k0-math 数学模型，12月发布 k1 视觉思考模型之后，连续第三个月带来 k 系列强化学习模型的重磅升级。Kimi k1.5的性能，如今已经全面追上现役全球最强模型——OpenAI o1满血版。具体来说，在Long CoT模式下，Kimi k1.5的数学、代码、多模态推理能力，达到了长思考SOTA模型Op…
前沿技术
- 4
- 0
charles5月13日
谷歌发布Gemini2.0，开启Agent新时代

在人工智能领域，技术的每一次飞跃都如同璀璨的星辰，照亮了人类探索未知的征程。谷歌，作为全球科技巨头，始终走在AI创新的前列。2024年12月12日，谷歌发布的Gemini2.0，无疑是在这一浩瀚星空中熠熠生辉的新星。它不仅代表了谷歌在AI技术上的深厚积累和前瞻视野，更预示着Agent新时代的全面开启。本文将从Gemini2.0的主要特点出发，深入探讨其背后的技术进步和应用前景，以及这一创新如何引领…
前沿技术
- 6
- 0
charles5月13日
我构建多Agent平台的探索与愿景

术语ReAct是结合推理和行动以提升智能体决策能力的框架Handoffs机制是指多Agent系统中任务在不同Agent之间平滑转移的过程概述最近会遇到跟dify或是fastGPT的对比问题，会同类对比，AIP是目前在维护的开源多Agent平台，类似于crewAI平台。每个设计师思路不一，Agent平台的概念容易与同类产品类比，其实不然。这里为了方便AI助手或是应用统称为Agent。这也是为什么会从…
前沿技术
- 5
- 0
charles5月13日
Github揽获1.6K星！南大、腾讯发布VITA-1.5: 迈向GPT-4o级实时视频-语音交互

近年来，多模态大语言模型（MLLMs）主要聚焦在视觉和文本模态的融合上，对语音的关注较少。然而，语音在多模态对话系统中扮演着至关重要的角色。由于视觉和语音模态之间的差异，同时在视觉和语音任务上取得高性能表现仍然是一个显著的挑战。论文标题：VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction论文链接：https:…
前沿技术
- 5
- 0
charles5月13日
2025 年10大AI 方向：高效推理、多模态等

随着2024年渐行渐远，我们迎来了一个充满AI创新与突破的年度回顾。从大型语言模型的进一步发展，到计算机视觉、AI安全等领域的革命性进展，研究社区在过去一年里确实做出了许多令人震撼的贡献。面对如此多的科研成果，哪些研究真正让我们停下来思考？哪些论文启发了我们，激发了“我如何将这些成果应用到自己的工作中？”的好奇心？在这篇文章中，我将分享我个人最喜欢的2024年AI研究论文，这些研究不仅令我兴奋，也…
前沿技术
- 5
- 0
charles5月13日
利用多模态RAG实现图文并茂的内容生成

前言传统的单模态RAG只能实现基于文本的检索召回，但是在企业级应用场景中，存在大量文本、图片、表格混排的复杂文档。对于这类文档的检索召回，单模态RAG难以给出精确有效的答案。比如在工业制造，工程师需要检索某个设备的安装方法，详细的文字描述不如一张安装流程图。或者工程师要检索某个传感器的性能参数，再详尽的文字介绍都不如一张清晰的表格。不仅是工业制造，包括生物医药、零售快消、汽车、教育等等行业，甚至是…
前沿技术
- 6
- 0
charles5月13日
2025年开篇｜AI Agent与多模态大模型：智能革命的新纪元

回首2024年2024年，AI能力不断进化，各类AI应用也遍地开花，理解语义、生成高质量文本内容已成常态，AI情感陪伴与人类“共情”，AI助手为几百页英文判决做摘要，视频生成模型的高歌猛进使得AI闯入电影制作领域……如果说2023年是百模大战、千模大战，那2024年则是应用之战，新一代的AI技术正在开始进入普通人的工作与生活。下面这张图回顾了2024年主要的AI大事纪！如需高清原图，请后台私信“2…
前沿技术
- 5
- 0
charles5月13日
多模态RAG技术：从语义抽取到VLM应用与规模化挑战

导读本次分享聚焦于多模态 RAG 的实现路径与发展前景。核心议题涵盖五方面：1. 基于语义抽取的多模态 RAG2. 基于 VLM 的多模态 RAG3. 如何 Scale 基于 VLM 的多模态 RAG4. 技术路线的选择5. 问答环节分享嘉宾｜金海 Infiniflow 联合创始人编辑整理｜王红雨内容校对｜李瑶出品社区｜DataFun0…
前沿技术
- 6
- 0
charles5月13日
戴上眼镜的Kimi能力超强，领先 o1 和 Gemini

Kimi 低调了一阵，但还是压不住自身的实力。最近 Kimi 帮自己戴上了一副特异功能眼镜，化身为眼镜小蓝人，眼镜不是赌神的作弊眼镜，而是一个Kimi最新推出的视觉思考模型。我们在 Kimi 官方的侧边栏可以看到戴眼镜的小蓝人，在各路模型在卷文字版的推理追赶 o1 的时候，Kimi又一次一马当先地做出了惊艳的视觉版的推理"o1"。而且 Kimi 的视觉能力是原生的，非常强悍。实…
前沿技术
- 6
- 0
charles5月13日
Gemini 2.0 Flash Thinking：谷歌推出实验性多模态推理模型，在快速生成的同时展示详细的思考过程

模型介绍：Gemini 2.0 Flash Thinking是谷歌推出的实验性AI模型，能够快速思考和解决问题。主要功能：模型展示了详细的思考过程，适用于数学、物理、创意写作等多个领域。使用限制：输入和输出有令牌限制，目前仅支持文本和图片输入，输出仅限文本。正文Gemini 2.0 Flash Thinking 是什么Gemini 2.0 Flash Thinking是谷歌推出的实验性AI模型，旨…
前沿技术
- 4
- 0
charles5月13日
快手可灵1.6正式上线，他们又一次超越了自己。

临近年末，各家AI视频公司好像也都着急过年，模型一个接一个更新。测不完，根本测不完。周二我刚发完谷歌Veo2的文章，就说过内部测评里除了它亲儿子，可灵1.5在盲测中评价最高。结果文章还挂在头条上躺着，昨天登录可灵一看，他们全新的1.6版本，就这么水灵灵的上线了。真实的商战，就这么朴实无华（狗头）。二话不说，直接开测。可灵网址在此：https://klingai.kuaishou.com/我花了几个…
前沿技术
- 3
- 0
charles5月13日
GPT-4o掀起全模态热潮！一文梳理全模态大模型最新研究进展

随着 Gemini 和 GPT-4o 等系列的发布，本文尝试总结一些最近全模态相关的工作。采用联合文本、图像、语音和视频进行训练，用一个端到端的模型可以支持文本、语音和图像三个模态，在支持图生文的同时也支持文生图。Emu论文标题：Emu: Generative Pretraining in Multimodality论文地址：https://arxiv.org/abs/2307.05222代码地址…
前沿技术
- 5
- 0
charles5月13日
国家电网发布国内首个千亿级多模态电力行业大模型

12月19日，国家电网有限公司在京发布“电力知识最全、参数规模最大、专业能力最强”千亿级多模态行业大模型——光明电力大模型。该模型作为能源电力领域的人工智能“专家”，为电网安全稳定运行、促进新能源消纳、做好供电服务提供“超级大脑”。为深入贯彻国家“人工智能+”行动，全面落实国家发展改革委专项任务、国务院国资委焕新行动和国家能源局专项部署，国家电网有限公司协同内外部单位，加快推进以大模型为代表的新一…
前沿技术
- 6
- 0
charles5月13日
初创公司 Odyssey 推出 AI 工具 Explorer了

创意产业需要通过新技术赋能，才能带来新的生机。在当今数字化和人工智能迅猛发展的时代，初创公司Odyssey凭借其最新推出的AI工具Explorer，再次证明了技术革新在创意产业中的巨大潜力。Explorer不仅是一款工具，更是一场革命。个人觉得它通过将文本或图像转化为逼真的3D渲染场景，为创作者提供了前所未有的创作自由度。技术与创新的融合Explorer的核心功能是将文本或图像转化为高度逼真的3D…
前沿技术
- 3
- 0
charles5月13日
利用 Gemini 构建 PDF 文档 AI 管道：原理、实现与应用（含代码）

当下文档处理的自动化需求日益增长，尤其是对于 PDF 文档的有效处理成为了关键任务（ParseStudio：使用统一语法简化PDF文档解析）。随着人工智能技术的迅猛发展，大型语言模型（LLMs）如 ChatGPT 等在自然语言处理领域取得了显著成果，而自动化文档处理也成为了这场技术革命的最大受益者之一。然而，传统的文本处理方式在面对 PDF 文档时面临诸多挑战，如非文本元素（如图像、表格等）的处理…
前沿技术
- 5
- 0
charles5月13日
一手实测豆包新发布的视觉理解大模型，他们真的卷起飞了。

人在字节火山发布会现场。眼睁睁看着他们发了一大堆的模型升级，眼花缭乱，有一种要一股脑把字节系的AI底牌往桌上亮的感觉。有语音的，有音乐的，有大语言模型的，有文生图的，有3D生成。真的过于豪华了，字节真的是，家大业大。。。但是看完了全场，我觉得最值得写一写，聊一聊的，还是这个：豆包视觉理解模型。效果不仅出奇的好，最关键的是，他们的价格。价格直接低85%，直接把视觉理解模型拉入了“厘时代”。字节，还是…
前沿技术
- 3
- 0
charles5月13日
百度飞桨：多模态大模型技术进展与产业应用实践

本次分享包括以下几大部分：1. 多模态大模型的能力与应用场景2. 多模态大模型架构的演变及其特点3. 多模态大模型开发套件 PaddleMIX4. Q&A分享嘉宾｜王冠中百度在线网络技术(北京)有限公司资深研发工程师编辑整理｜Edith内容校对｜李瑶出品社区｜DataFun01多模态大模型的能力与应用场景首先来探讨多模态大模型的能力及…
前沿技术
- 6
- 0
charles5月13日
Kimi发布视觉思考模型k1，会看图做题，还能看图定位你在哪里

最近，大模型厂商们都在卯足了劲儿往视觉的方向使力，OpenAI上线了Sora，Google向开发者开放Gemini 2.0 Flash的多模态API，还演示了Project Astra在视觉理解等方面的能力。Kimi也整了个“新活”：视觉思考模型k1。根据介绍，这是一个在数理化领域全面对标OpenAl o1、GPT-4o以及 Claude 3.5 Sonnet的视觉思考模型。一个月前，Kimi推出…
前沿技术
- 4
- 0
charles5月13日
RAG用于翻译实现思路及多模态模型用于文档理解的几个核心问题

今天是2024年12月07日，星期六，北京，天气晴。我们今天来看看文档多模态的几个调研结论，说两个问题，一个是多模态模型LVLMs用于文档理解的几个问题，看看目前的几个研究点，一个是RAG用于翻译任务的思路。都很有趣，供大家一起参考。供各位参考，多思考，多总结，多实践；一、多模态视觉模型LVLMs用于文档理解的几个问题这段时间看了下多模态模型LVLMs用于文档理解的工作，主要总结为以下几个问题：其…
前沿技术
- 8
- 0
charles5月13日
Alibaba出品:OmniParser通用文档复杂场景下OCR抽取

本公众号主要关注NLP、CV、LLM、RAG、Agent等AI前言技术，免费分享业界实战案例与课程，助力您全面拥抱AIGC。三大OCR任务统一抽取文本识别关键信息提取表格识别Omniparser框架以及核心思想作者采用基于文本中心点的连贯输入和输出模式，在两个阶段，将同一文本划分为三个部分：在stage1阶段：结构中心点序列化（Structured points）:即标记重要信息区域的中心位置，并…
前沿技术
- 4
- 0
charles5月13日
Salesforce AI：多模态训练技巧，超有用！

一、摘要BLIP-2是将预训练视觉模型与语言模型，通过Q-Former【Querying Transformer】将图片和文本两种模态桥接起来。利用已有的视觉模型和语言模型，来提升多模态的效果，同时降低视觉和语言模型的训练成本的一种框架二、模型结构BLIP-2 由预训练的Image Encoder，预训练的Large Language Model，和 Q-Former …
前沿技术
- 3
- 0
charles5月12日
内容AI: 目标驱动的图像生成

现有的文生图技术已经较为成熟，Flux、SD 3.5 和 Midjounery 等最先进文生图模型已经可以生成足够“以假乱真”的图像。在淘系内部，现有文生图模型已经被应用于各种需要创意图像的业务,例如 AI 会场等。但是，文生图技术的缺陷在于文本作为控制条件的指导性仍然较弱--例如我们无法仅利用文本生成一个带有“GitHub”样式的包包的营销图（见图1）。图1. 现有…
前沿技术
- 6
- 0
charles5月12日
AI大模型实现图片OCR识别

一.背景 OCR（Optical Character Recognition，光学字符识别）是一种将图像中的文字转换为机器编码文本的技术。这项技术可以自动读取纸质文档上的文字信息，并将其转换成电子格式，便于编辑、存储和检索。OCR 技术在很多领域都有广泛应用，比如数据录入、文献数字化、辅助阅读设备等。 LLM 助力 OCR 的方式文本理解和后处理：语义理…
前沿技术
- 2
- 0
charles5月12日
使用Llama 3.2-Vision多模态LLM与您的图像聊天

介绍将视觉能力与大型语言模型（LLMs）结合的多模态LLM（MLLM）正在通过多模态LLM革命性地改变计算机视觉领域。这些模型结合了文本和视觉输入，展示了在图像理解和推理方面的出色能力。虽然这些模型以前只能通过API访问，但最近的开源选项现在允许本地执行，使其在生产环境中更具吸引力。在此教程中，我们将学习如何使用开源的Llama 3.2-Vision模型与图像进行聊天，你会对其OCR、图像理解和推…
前沿技术
- 3
- 0
charles5月12日