全部标签

多模态技术

成果分享 | “读懂地图”的多模态大模型MapReader

“读懂地图”的多模态大模型MapReader01 成果负责人禹文豪，中国地质大学（武汉）地理与信息工程学院，教授，博士生导师，主要从事地图综合、空间数据挖掘及大模型等研究。（联系邮箱：yuwh@cug.edu.cn；个人网站：http://grzy.cug.edu.cn/yuwenhao/zh_CN/index.htm）02 系统演示链接网址：https://www.bilib…
前沿技术
- 4
- 0
charles25年5月10日
ColPali文档页面多模态嵌入模型：实现思路及其实践脚本解读

一、文档页面检索的一些思路给定一个查询，系统能否检索到正确的文档页面？传统的文档检索系统在文本匹配方面做得很好，但往往忽视了文档中的视觉元素，如表格、图形、页面布局或字体，这些元素对于文档检索同样重要。例如，基于词频的统计方法，如TF-IDF和BM25，由于它们的简单性和效率，仍然被广泛使用。最近，基于微调大型语言模型的神经嵌入模型在各种文本嵌入任务上显示出很大的潜力此外，在双编码器模型中，文档独…
前沿技术
- 11
- 0
charles25年5月10日
多模态代理：CrewAI、Groq 和 Replicate AI 的创新融合

在人工智能（AI）领域，多模态代理的概念正逐渐受到关注。这些代理能够处理并整合来自不同模态（如文本、图像、语音等）的信息，以执行复杂的任务。本文将详细介绍如何使用CrewAI框架、Groq硬件加速器和Replicate AI的模型来构建一个多模态AI代理，该代理能够执行文本到语音、基于文本的图像生成、图像描述以及网络搜索等多种任务。多模态AI代理的设计旨在提高AI系统的灵活性和实用性。通过结合不同…
前沿技术
- 8
- 0
charles25年5月10日
NotebookLM：一款基于长文本理解/多模态大模型设计的Google笔记应用

太长不看：NotebookLM是Google AI Lab开发的基于AI原生的笔记应用它产品的设计逻辑完全基于Gemini 1.5 Pro的长文本理解+多模态能力由于长文本上限，导致需要通过多个笔记本来区分内容随着长文本/多模态的能力逐渐解锁，NotebookLM能力还会增强目前看Google对于它的突破口还是考虑在教育领域以下是正文：最近NotebookLM很火，只需要提交一些文件或者链接，就可…
前沿技术
- 11
- 0
charles25年5月10日
AIGC应用案例-视觉设计与UI设计

AI正以惊人的速度改变着我们的生活和工作方式。淘宝设计团队也在探索如何借助AI的能力，打破谈及AI即聊天对话的思维惯性，构建更高效、实用、符合电商场景的体验范式，来帮助用户解决全链路购物场景问题，重塑用户的购物体验。分享人：陈慧聪研究方向：AIGC关键词：AIGC；IP形象设计；UI设计；版面设计01重庆一锅IP形象设计案例作者 ZhengKai Huang案例介绍设计师使用AIGC技…
前沿技术
- 12
- 0
charles25年5月10日
大模型能做对数学题吗？

问题描述目前大模型对一些需要专业能力的场景上还有欠缺，但在通用的能力上确实能够节省一些人力成本。接下来我们会以小学、中学、大学不同阶段的数学题目，来检验下大模型的解题能力。模型使用的是阿里的qwen-vl-max多模态大模型，根据用户上传的题目照片或截图进行解体。1、小学数学题大模型给出的回答如下：这道题目是能够准确解答的。多模态的大模型给出的回答如下：回答错误。我们在尝试用qwen-max来解题…
前沿技术
- 17
- 0
charles25年5月9日
实测豆包AI视频模型Seaweed，击败Sora的含金量到底有多少？

前天 AI 视频界迎来了 iphone? 时刻，字节正式发布了两款全新的 AI 视频模型， PixelDance 和 Seaweed PixelDance 核心亮点是“人物复杂连续动作”，“多镜头组合”和“运镜控制”。光这个视频就值得我跳起来点三个赞！但现在一个都测试不到，从目前透露出的各种 PixelDance 素材来看，应该是极少数人拿到了内测资格。‍不知道跟前段时间 GP…
前沿技术
- 13
- 0
charles25年5月9日
Meta发布Llama 3.2，Llama 终于能看见了！

Llama家族再添新成员，多模态能力终于到来！Meta刚刚发布了Llama 3.2模型系列，包括多模态视觉模型和小型文本模型，共计10个开放权重模型。这次更新不仅带来了期待已久的视觉能力，还为移动设备和边缘计算提供了更多选择。多模态Llama：视觉能力终于解锁Llama 3.2 Vision模型终于为Llama家族带来了多模态能力。它提供了两种尺寸：11B版本：适合在消费级GPU上高效部署和开发9…
前沿技术
- 9
- 0
charles25年5月9日
Llama 3.2：AI视觉革新，手机也能跑大模型

Meta最新发布的Llama 3.2不仅能"看"，还能在你的手机上运行。这次更新带来了多模态支持的Llama Vision和专为设备端优化的"tiny"模型，共推出10个新模型，规模从1B纯文本到90B多模态（文本+图像）不等。Llama 3.2的核心亮点：1.Llama 3.2 Vision：推出11B和90B两种规模的多模态模型，支持文本+图像输入并生成…
前沿技术
- 9
- 0
charles25年5月9日
一文彻底搞懂多模态 – 视觉大模型

Large Vision models视觉大模型（Large Vision models）在图像理解和生成领域展现出了巨大的潜力和价值。CLIP和SAM作为通用图像理解模型的代表，分别通过跨模态匹配和精确分割技术推动了图像理解领域的发展。而Stable Diffusion作为通用图像生成模型的代表，则以其高效、稳定的图像生成能力为图像创作和艺术设计等领域带来了全新的可能性。接下来分两部分：通用图像…
前沿技术
- 13
- 0
charles25年5月9日
全面介绍！多模态数据与大模型

以前，我们的机器学习模型一般都只处理一种类型的数据，比如只处理文本（翻译、语言建模）、图像（对象检测、图像分类）或音频（语音识别）。但是，想想我们人类的大脑。我们不仅仅读写文字，还可以看图、看视频，听音乐，还能够辨识各种不同的声音。所以，为了让AI更接近真实世界，处理多种类型的数据显得非常重要。OpenAI 在他们的 GPT-4V 系统简介中提到：有人认为，把其他数据类型（比如图像输入）融入到大…
前沿技术
- 14
- 0
charles25年5月9日
将PDF文档转换成音频播客、讲座或摘要PDF2Audio

项目简介此代码可用于将 PDF 转换为音频播客、讲座、摘要等。它使用 OpenAI 的 GPT 模型进行文本生成和文本到语音的转换。您还可以编辑草稿记录（多次）并提供具体评论或有关如何调整或改进的总体指示。特征上传多个PDF文件从不同的教学模板中进行选择（播客、讲座、摘要等）自定义文本生成和音频模型为扬声器选择不同的声音通过具体或一般性评论和/或对文本的编辑以及对模型的具体反馈来迭代草稿以进行改进…
前沿技术
- 6
- 0
charles25年5月9日
【深入浅出RAG】通过LlamaCloud打造多模态RAG

文档RAG的未来是多模态的许多实际中的文档不仅包含文本，还包含复杂的视觉元素，如图像、图表和图解。传统的RAG系统往往只关注文本。这导致文档理解能力下降，响应质量降低，幻觉率增加。多模态LLM和RAG系统可以解决这些复杂性——像Pixtral、Sonnet 3.5和GPT-4o这样的多模态LLM在文档理解方面越来越好。我们的客户要求我们提供这些功能，用于高级知识助手用例，比如生成包含图表和图像的结…
前沿技术
- 7
- 0
charles25年5月9日
探索阿里通义千问的 Qwen2-VL：新一代视觉语言模型本地体验实战大全

一、模型特点1. 强大的视觉理解能力任意分辨率图像识别：Qwen2-VL 可以读懂不同分辨率和不同长宽比的图片，无论图像的清晰度或大小如何，都能轻松识别。这得益于其独特的 naive dynamic resolution 支持，能够将任意分辨率的图像映射成动态数量的视觉 token，保证了模型输入和图像信息的一致性，模拟了人类视觉感知的自然方式。长视频理解：该模型能够理解超过 20 分钟的长视频，…
前沿技术
- 7
- 0
charles25年5月9日
一文彻底搞懂多模态 – 基础知识

MultiModal在人工智能的不断发展中，多模态学习逐渐崭露头角，成为了一个重要的研究方向。它不再局限于单一类型的数据处理，而是将图像、文本、音频等多种信息源结合起来，为机器提供了更加丰富和多元的理解视角。接下来分四部分：传统机器学习、深度学习、优化算法、应用领域，一起来总结下多模型的基础知识。MultiModal一、传统机器学习什么是传统机器学习（Machine Learning）？传统机器学…
前沿技术
- 6
- 0
charles25年5月9日
忘掉Sora吧，快手最新的可灵1.5Pro让国外陷入疯狂！

快手发布了最新文生视频模型可灵1.5Pro版本，本次更新除了提升质量、光影、动作一致性、文本提示还原之外，最大亮点是能直接生成1080P影视级视频。很多国外用户认为其效果已经超过了Runway、Luma等国际一线产品。所以，他们对可灵的评价也比较简单粗暴就两个词——Insane和Amazing。值得一提的是，Runway昨天刚与好莱坞巨头狮门影业达成了技术合作，帮助他们的导演、制作人、创意人员用A…
前沿技术
- 9
- 0
charles25年5月9日
Ollama官方已支持MiniCPM-V 2.6模型

Ollama官方支持MiniCPM-V模型近日，ollama官方发布了v0.3.10版本，该版本已正式官方支持MiniCPM-V模型。新增模型：• MiniCPM-V:一个强大的多模态模型，在几个基准测试中具有领先的性能。• Yi-Coder:一系列开源代码语言模型，以少于100亿个参数提供最先进的编码性能。• DeepSeek-V2.5: DeepSeek-V2的升级版本，集成了DeepSeek…
前沿技术
- 10
- 0
charles25年5月9日
探索 Mini – Omni：开启语音多模态交互新征程

随着大模型技术的蓬勃发展，全球 AI 领域已经步入了多模交互的新纪元。2024 年 5 月 OpenAI 推出多模态模型 GPT4O 之后，语音文本多模态大模型的研究热度持续攀升。然而，现有的语音对话系统存在着一些亟待解决的问题。例如，很多模型无法有效地理解语音中的非文本信息，导致交互体验不够流畅和智能。同时，AI 回复迟缓的实时性问题也在很大程度上限制了语音交互系统在一些对实时性要求较高场景中的…
前沿技术
- 8
- 0
charles25年5月9日
探索新一代大模型代理（LLM agent）及其架构

在人工智能大模型(AI)的浪潮中，2023年我们见证了检索增强生成(Retrieval Augmented Generation, RAG)的兴起，而2024年则无疑成为了“代理”agent的元年。各大AI企业纷纷投身于聊天机器人代理的研发中，工具如MultiOn通过与外部网站的连接实现了快速增长，而框架如LangGraph和LlamaIndex Workflows则助力全球开发者构建结构化的代理…
前沿技术
- 10
- 0
charles25年5月9日
阿里 mPLUG-Owl3 震撼登场：通用多模态大模型的创新风暴来袭

在当今人工智能领域，多模态大模型的发展正以惊人的速度改变着我们与技术交互的方式。阿里发布的 mPLUG-Owl3 通用多模态大模型，以其在多图、长视频理解等方面的卓越表现，成为了行业内的焦点。本文将深入探讨 mPLUG-Owl3 的技术特点、实现原理以及广泛的应用场景，带您领略这一强大模型的魅力。一、mPLUG-Owl3 模型特点1、高推理效率mPLUG-Owl3 以 llava-next-int…
前沿技术
- 14
- 0
charles25年5月9日
Llama 3.1 Omni：颠覆性的文本与语音双输出模型

你可能听说过不少关于语言模型的进展，但如果告诉你，有一种模型不仅能生成文本，还能同时生成语音，你会不会觉得特别酷？今天咱们就来聊聊一个相当前沿的项目——Llama 3.1 Omni模型。这个模型打破了传统的文字生成边界，直接让文本和语音同时输出，实现了真正的"多模态"（multi-modal）能力。喜欢直接读论文的朋友，可以参考这里：https://arxiv.org/pdf/…
前沿技术
- 9
- 0
charles25年5月9日
阿里8B模型拿下多页文档理解新SOTA，324个视觉token表示一页，缩减80%

高效多页文档理解，阿里通义实验室mPLUG团队拿下新SOTA。最新多模态大模型mPLUG-DocOwl 2，仅以324个视觉token表示单个文档图片，在多个多页文档问答Benchmark上超越此前SOTA结果。并且在A100-80G单卡条件下，做到分辨率为1653x2339的文档图片一次性最多支持输入60页！△单个A100-80G最多能支持文档图片(分辨率=1653x2339)的数量以及首包时间…
前沿技术
- 12
- 0
charles25年5月9日
Mac上运行微软最新Phi-3.5-mini大模型+开发Agent

Phi-3.5-mini[1]是微软广为人知的 Phi-3 模型的轻量级版本，旨在以无与伦比的效率处理多达 128K 个 token 的长上下文。该模型由合成数据和精心筛选的 Web 内容混合而成，在高质量、推理密集型任务中表现出色。Phi-3.5-mini 的开发用到了先进技术，例如监督微调和创新优化策略，还有近端策略优化和直接偏好优化。这些强劲的功能提升可确保出色地遵守指令和强大的安全协议，从…
前沿技术
- 15
- 0
charles25年5月9日
使用 Dify 和 AI 大模型理解视频内容：Qwen 2 VL 72B

接下来的几篇相关的文章，聊聊使用 Dify 和 AI 大模型理解视频内容。本篇作为第一篇内容，以昨天出圈的“黑神话悟空制作人采访视频”为例，先来聊聊经常被国外厂商拿来对比的国产模型：千问系列，以及它的内测版。写在前面最近一两周有好几位朋友线下聚的时候，聊起了端侧多模态模型，以及用端侧多模态模型做 RPA 和一些内容识别相关的业务场景。在展开聊这些内容前，我觉得或许可以先从“为个人偷懒”角度，来聊聊…
前沿技术
- 8
- 0
charles25年5月9日