全部标签

多模态技术

利用 Gemini 构建 PDF 文档 AI 管道：原理、实现与应用（含代码）

当下文档处理的自动化需求日益增长，尤其是对于 PDF 文档的有效处理成为了关键任务（ParseStudio：使用统一语法简化PDF文档解析）。随着人工智能技术的迅猛发展，大型语言模型（LLMs）如 ChatGPT 等在自然语言处理领域取得了显著成果，而自动化文档处理也成为了这场技术革命的最大受益者之一。然而，传统的文本处理方式在面对 PDF 文档时面临诸多挑战，如非文本元素（如图像、表格等）的处理…
前沿技术
- 6
- 0
charles25年5月13日
一手实测豆包新发布的视觉理解大模型，他们真的卷起飞了。

人在字节火山发布会现场。眼睁睁看着他们发了一大堆的模型升级，眼花缭乱，有一种要一股脑把字节系的AI底牌往桌上亮的感觉。有语音的，有音乐的，有大语言模型的，有文生图的，有3D生成。真的过于豪华了，字节真的是，家大业大。。。但是看完了全场，我觉得最值得写一写，聊一聊的，还是这个：豆包视觉理解模型。效果不仅出奇的好，最关键的是，他们的价格。价格直接低85%，直接把视觉理解模型拉入了“厘时代”。字节，还是…
前沿技术
- 5
- 0
charles25年5月13日
百度飞桨：多模态大模型技术进展与产业应用实践

本次分享包括以下几大部分：1. 多模态大模型的能力与应用场景2. 多模态大模型架构的演变及其特点3. 多模态大模型开发套件 PaddleMIX4. Q&A分享嘉宾｜王冠中百度在线网络技术(北京)有限公司资深研发工程师编辑整理｜Edith内容校对｜李瑶出品社区｜DataFun01多模态大模型的能力与应用场景首先来探讨多模态大模型的能力及…
前沿技术
- 7
- 0
charles25年5月13日
Kimi发布视觉思考模型k1，会看图做题，还能看图定位你在哪里

最近，大模型厂商们都在卯足了劲儿往视觉的方向使力，OpenAI上线了Sora，Google向开发者开放Gemini 2.0 Flash的多模态API，还演示了Project Astra在视觉理解等方面的能力。Kimi也整了个“新活”：视觉思考模型k1。根据介绍，这是一个在数理化领域全面对标OpenAl o1、GPT-4o以及 Claude 3.5 Sonnet的视觉思考模型。一个月前，Kimi推出…
前沿技术
- 5
- 0
charles25年5月13日
RAG用于翻译实现思路及多模态模型用于文档理解的几个核心问题

今天是2024年12月07日，星期六，北京，天气晴。我们今天来看看文档多模态的几个调研结论，说两个问题，一个是多模态模型LVLMs用于文档理解的几个问题，看看目前的几个研究点，一个是RAG用于翻译任务的思路。都很有趣，供大家一起参考。供各位参考，多思考，多总结，多实践；一、多模态视觉模型LVLMs用于文档理解的几个问题这段时间看了下多模态模型LVLMs用于文档理解的工作，主要总结为以下几个问题：其…
前沿技术
- 7
- 0
charles25年5月13日
Alibaba出品:OmniParser通用文档复杂场景下OCR抽取

本公众号主要关注NLP、CV、LLM、RAG、Agent等AI前言技术，免费分享业界实战案例与课程，助力您全面拥抱AIGC。三大OCR任务统一抽取文本识别关键信息提取表格识别Omniparser框架以及核心思想作者采用基于文本中心点的连贯输入和输出模式，在两个阶段，将同一文本划分为三个部分：在stage1阶段：结构中心点序列化（Structured points）:即标记重要信息区域的中心位置，并…
前沿技术
- 5
- 0
charles25年5月13日
Salesforce AI：多模态训练技巧，超有用！

一、摘要BLIP-2是将预训练视觉模型与语言模型，通过Q-Former【Querying Transformer】将图片和文本两种模态桥接起来。利用已有的视觉模型和语言模型，来提升多模态的效果，同时降低视觉和语言模型的训练成本的一种框架二、模型结构BLIP-2 由预训练的Image Encoder，预训练的Large Language Model，和 Q-Former …
前沿技术
- 4
- 0
charles25年5月12日
内容AI: 目标驱动的图像生成

现有的文生图技术已经较为成熟，Flux、SD 3.5 和 Midjounery 等最先进文生图模型已经可以生成足够“以假乱真”的图像。在淘系内部，现有文生图模型已经被应用于各种需要创意图像的业务,例如 AI 会场等。但是，文生图技术的缺陷在于文本作为控制条件的指导性仍然较弱--例如我们无法仅利用文本生成一个带有“GitHub”样式的包包的营销图（见图1）。图1. 现有…
前沿技术
- 6
- 0
charles25年5月12日
AI大模型实现图片OCR识别

一.背景 OCR（Optical Character Recognition，光学字符识别）是一种将图像中的文字转换为机器编码文本的技术。这项技术可以自动读取纸质文档上的文字信息，并将其转换成电子格式，便于编辑、存储和检索。OCR 技术在很多领域都有广泛应用，比如数据录入、文献数字化、辅助阅读设备等。 LLM 助力 OCR 的方式文本理解和后处理：语义理…
前沿技术
- 3
- 0
charles25年5月12日
使用Llama 3.2-Vision多模态LLM与您的图像聊天

介绍将视觉能力与大型语言模型（LLMs）结合的多模态LLM（MLLM）正在通过多模态LLM革命性地改变计算机视觉领域。这些模型结合了文本和视觉输入，展示了在图像理解和推理方面的出色能力。虽然这些模型以前只能通过API访问，但最近的开源选项现在允许本地执行，使其在生产环境中更具吸引力。在此教程中，我们将学习如何使用开源的Llama 3.2-Vision模型与图像进行聊天，你会对其OCR、图像理解和推…
前沿技术
- 3
- 0
charles25年5月12日
腾讯微信推出大模型 POINTS 1.5 了

视觉语言模型的开源中文数据集稀缺，想要做这块就得从互联网上收集大量图像，还得使用手动和自动方法的组合进行注释。视觉指令调谐集获得难度大，也造就了视觉语言模型成为研究的热点。近日，腾讯微信正式发布了最新的多模态大模型POINTS 1.5。个人觉得它不仅展示了腾讯在AI领域的深厚积累，也为行业带来了新的思考和机遇。创新架构与优化策略POINTS 1.5继续沿用了经典的LLaVA架构，该架构由视觉编码器…
前沿技术
- 9
- 0
charles25年5月12日
为什么生成式AI不擅长同时做两件事？

当下生成式 AI 以其惊人的能力不断吸引着我们的目光，从撰写连贯文本到生成奇幻图像，它似乎无所不能。然而，一个显著的局限却如影随形：当涉及到同时执行多种任务，特别是跨不同模态（如文本与图像）的任务时，生成式 AI 往往显得力不从心。这一现象引发了广泛的关注与思考，究竟是什么原因导致了生成式 AI 在多任务处理上的困境？一、表面现象与实际困境从表面上看，生成式 AI 模型（LLM的擅长与不擅长：深入…
前沿技术
- 8
- 0
charles25年5月12日
Milvus×Florence：一文读懂如何构建多任务视觉模型

近两年来多任务学习（Multi-task learning）正取代传统的单任务学习（single-task learning），逐渐成为人工智能领域的主流研究方向。其原因在于，多任务学习可以让我们以最少的人力投入，获得尽可能多的AI能力。比如ChatGPT，就是一种基于多任务学习的自然语言生成模型。通过海量的数据训练，以及针对特定任务的模型微调，ChatGPT可以拥有极高的性能以及广泛的通用性。这…
前沿技术
- 11
- 0
charles25年5月12日
Sakana AI ：进化的通用 Transformer 存储器

进化的 Transformer Memory Transformer 引入了一种革命性的记忆系统，其灵感来自人类记忆如何选择性地保留和修剪信息。记忆不仅可以提高现有预训练 Transformer 的性能和效率，而且还可以跨不同基础模型普遍迁移，甚至超越语言，无需任何重新训练。记忆是认知的重要组成部分，它使人类能够从主宰我们生…
前沿技术
- 7
- 0
charles25年5月12日
Gemini 2.0: 我们智能体时代的最新 AI 模型

信息是人类进步的基石。26 年来，我们始终专注于我们的使命 —— 整合全球信息，供大众使用，让人人受益。这也是我们持续拓展人工智能前沿领域的原因。我们整合来自世界各地的信息，并通过多样化的输出方式，让这些信息触手可及，真正为您所用。正是基于这个愿景，我们在去年年底推出了 Gemini 1.0。作为首个原生多模态模型，Gemini 1.0 和 1.5 在多模态和长上下文处理方面取得了重大进展，能够理…
前沿技术
- 8
- 0
charles25年5月12日
谷歌大招来了！！Gemini 2.0 原生多模态输入输出

谷歌的大招终于来了，发布了 Gemini 2.0 Flash 应该是第一家实现原生多模态输入输出的模型，而且还有新的编码代理，这些代理将通过替代开发人员采取行动来增强工作流程。Gemini 2.0 FlashFlash 2.0 的速度是 1.5 Pro 的两倍，同时实现了更强的性能，包括新的多模式输出，并附带原生的工具使用。　更好的性能：Gemini 2.0 Flash 比 1.5 Pro 更强大…
前沿技术
- 11
- 0
charles25年5月12日
如何提取手写票据信息？

场景：票据信息结构化提取某客户业务中涉及的票据类型繁多，包括手写票据、打印小票、文档电子表格等，如下图所示。客户希望利用我们的多模态大模型qwen-vl来将这些不同类型的票据信息提取为结构化数据，以便后续进行自动化处理和分析。最关键的需求是确保所提取的票据信息准确无误，尤其是关键信息（如编号编码），不能遗漏也不能出现错误。这将使客户能够更高效地管理他们大量的票据数据，减少人工处理的工作量，提高工作…
前沿技术
- 9
- 0
charles25年5月12日
【实战干货】AI大模型工程应用于车联网场景的实战总结

一、前言1.1 AIGC 发展背景图像作为人工智能内容生成的一种模态，一直在AIGC领域中扮演着重要角色，由于图像生成应用的广泛性和实用性，使其受到学术界和产业界相当多的关注。近年来，图像生成技术也取得了很多关键性突破，从经典的GAN技术到目前主流的扩散模型，以及在此基础上不断迭代出性能更强、生成效果更好的算法和模型，极大拓展了图像生成技术的应用领域和发展前景。而在进行商业化落…
前沿技术
- 5
- 0
charles25年5月12日
李飞飞：Agent AI 多模态交互的前沿探索

发布于：2024 年 11 月 27 日星期三北京Agent AI在多模态交互方面展现出巨大潜力，通过整合各类技术，在游戏、机器人、医疗等领域广泛应用。如游戏中优化NPC行为，机器人领域实现多模态操作等。然而，其面临数据隐私、偏见、可解释性等问题。未来，需加强技术创新，改进算法提升性能，解决伦理问题，推动跨领域融合，以实现Agent AI的持续发展，为社会带来更多积极影响。本文只对关键信息做了…
前沿技术
- 7
- 0
charles25年5月12日
使用Llama 3.2-Vision大模型，搭建本地Ollama OCR应用

用Python和Ollama的Llama 3.2-Vision模型搭建自己的OCR应用。光学字符识别技术，简称OCR，目前是数字化印刷文本和提取图像信息的核心手段，其重要性正日益凸显。如今，有了AI的加持，尤其是像Llama 3.2-Vision这样的模型，OCR变得更加强大。本文教会大家用Python和Ollama的Llama 3.2-Vision模型，一步步搭建起自己的OCR应用。先决条件在开…
前沿技术
- 9
- 0
charles25年5月12日
Molmo 7B：多模态智能下的文本提取

现如今文本和图像数据非常的丰富，如何高效、准确地从这些多模态（Llama 3.2：开启多模态AI的新篇章）数据中提取有价值的信息成为了人工智能领域的重要研究课题。AllenAI 的 Molmo 7B 模型的出现，为多模态智能下的文本提取带来了新的曙光。它不仅在学术研究中展现出卓越的性能，而且在实际应用场景中也具有巨大的潜力，正逐步改变着我们处理和理解文本与图像信息的方式。一、Molmo 7B 模型…
前沿技术
- 5
- 0
charles25年5月12日
简单到爆！Llama – OCR 仅需 3 步，小白也能完成高质量 OCR 识别！

在当今数字化信息爆炸的时代，光学字符识别（OCR）技术扮演着至关重要的角色。从处理海量的纸质文档到从图像中提取关键信息，OCR 技术不断革新。Llama-OCR 作为一款新兴的 OCR 工具，凭借其独特的技术和功能逐渐受到广泛关注。本文将深入探讨 Llama-OCR 的原理、特点、应用场景以及使用方法，为您揭开它的神秘面纱。一、Llama-OCR 概述Llama-OCR 是一款基于 Llama 3…
前沿技术
- 6
- 0
charles25年5月12日
Encord全球首发多模态数据标注编辑器，AI数据开发技术有哪些新趋势？

数据平台是AI应用的基石，负责处理、管理和优化用于训练和测试机器学习模型的数据。一个强大的AI数据平台能够确保数据的质量和多样性，这对于构建高效、准确的AI模型至关重要。随着技术的进步，AI数据平台也在不断进化，以满足日益增长的数据处理需求。近日，Encord最近推出了一系列新功能，这些功能不仅提升了数据处理的效率和质量，还为多模态AI模型的开发提供了强大的支持。Encord数据开发平台以其创新的…
前沿技术
- 13
- 0
charles25年5月12日
Pixtral Large：128K 上下文窗口 + 多模态融合，开启智能新视界！

在当今科技飞速发展的时代，人工智能领域正以前所未有的速度变革着我们的世界。其中，多模态 AI 模型作为前沿技术的代表，成为了人们关注的焦点。这些模型融合了文本、图像等多种模态的信息，为信息处理和理解带来了全新的维度。在这一充满活力的领域中，Mistral AI 公司于 2024 年 11 月 18 日发布的 Pixtral Large 多模态 AI 模型脱颖而出。本文将深入剖析这一创新模型，包括其…
前沿技术
- 8
- 0
charles25年5月12日