全部标签

多模态技术

基于GPU的ANN检索

导读 introduction近似最近邻（ANN）向量检索的CPU方案已被广泛地应用于在线检索等多种场景中并取得了不错的效果。GPU相比CPU拥有更强大的并行计算能力，如何将GPU引入ANN检索获取更大收益，成为了业界重点研究的难题之一。百度与NVIDIA技术团队，基于 RAFT[1]开源代码库设计并实现了一种基于GPU的ANN在线检索方案，在一类高检索流量业务场景下获得了显著的成本收益…
前沿技术
- 7
- 0
charles25年5月12日
打破文本边界：如何进行多模态RAG评估

01整体介绍在现代信息处理与检索系统中，如何有效地从这些包括了文本，图像，视频等多模态混合内容中，提取和利用信息是一个重要的研究方向。一般的检索增强生成（RAG，Retrieval-Augmented Generation）方法主要依赖于文本数据，常常忽略了图像中的丰富信息。多模态大型语言模型（MLLM）的出现.为这一问题提供了新的解决方案。例如，GPT-4o和Qwen-VL等多模态大模型，不仅能…
前沿技术
- 9
- 0
charles25年5月12日
西湖大学&腾讯：一个多模态Web Agent的开源框架

-OpenWebVoyager:通过迭代式的实际探索、反馈和优化构建多模态Web智能体。Hongliang He1,3*, Wenlin Yao2†, Kaixin Ma2, Wenhao Yu2, Hongming Zhang2,Tianqing Fang2, Zhenzhong Lan3, Dong Yu2123 浙江大学，腾讯AI Lab（西雅图），西湖大学编者：OpenWebVo…
前沿技术
- 11
- 0
charles25年5月12日
最复杂多智能体发布！百度推出“秒哒”和文心iRAG

11月12日，百度创始人李彦宏在百度世界2024大会上发表了主题为《应用来了》的演讲，同时发布两大赋能应用的AI技术：检索增强的文生图技术（iRAG）和无代码工具“秒哒”。幻觉问题是大模型广泛应用的最大限制之一，特别是在文生图领域，一些特定场景如长城、金字塔，特定人物爱因斯坦、贝多芬等，是出现幻觉的重灾区。目前业界认为解决文本生成幻觉最好的技术就是RAG，即检索增强生成。RAG技术的原理是通过从外…
前沿技术
- 10
- 0
charles25年5月12日
【RAG&多模态】多模态RAG-ColPali：使用视觉语言模型实现高效的文档检索

前面文章提到，文档智能解析能够有效的增强RAG系统的准确性。【文档智能 & RAG】RAG增强之路：增强PDF解析并结构化技术路线方案及思路可以看到基于PDF的RAG，需要先对pdf进行解析，生成文本chunk，然后再基于文本建索引。这种pipline的方式，每个解析模块都需要放置对应的解析模型，存在着错误传播的问题。因此，笔者看到ColPali时，这种端到端的方案挺有意思，本文来看一看这…
前沿技术
- 13
- 0
charles25年5月12日
开摆！谷歌AI视频上线！脚本、素材、剪片全稿定！

11月7日，谷歌宣布正式面向Google Workspace用户推出Google Vids应用。该应用旨在简化视频制作过程——即使用户没有视频制作经验，也能通过简单的操作制作出专业的视频。01谷歌Vids主要功能AI视频生成与编辑：Google Vids能够根据用户输入的文本描述或上传的素材，利用AI技术自动生成初步的视频内容，包括故事板、脚本和旁白。用户还可以轻松编辑和自定义这些内容，以满足自己…
前沿技术
- 8
- 0
charles25年5月11日
文档OCR版式识别，兼顾速度与精度，YOLO当首选

最近分享了很多关于文档OCR版式识别的文章。总体来看：视觉语言大模型文档OCR通用效果最强，用起来也最方便；但是缺点也非常明显，由于涉及到视觉模型、桥接层、语言模型三个部分，微调起来非常不方便。LayoutLM系列模型，基于transformer，虽然能应对多重任务，精准度尚可，但是识别速度没有优势。YOLO系列的文档OCR版式识别，优点：是速度快，微调模型也方便，在单一场景下精度不输上面两类模型…
前沿技术
- 15
- 0
charles25年5月11日
硬核升级！在Ollama中使用Llama3.2视觉模型

“ 2024年11月6日，Ollama发布了0.4版本，新增支持在本地加载和运行Llama3.2视觉模型，包括11B和90B两个大小的版本。”01—快速入门1. 下载安装Ollama 0.4版本下载地址： https://ollama.com2. 运行Llama3.2视觉模型：ollama run llama3.2-vision3. 如果你的电脑配置足够强大…
前沿技术
- 13
- 0
charles25年5月11日
dify案例分享-基于多模态模型的发票识别2-多种发票识别

上期文章我们提到使用dify基于多模态模型实现单张发票识别功能。本期文章我们在原有的单张发票识别基础上实现多种发票识别的dify基于工作流的智能体。下面我们首先介绍一下整体功能。这里面主要功能：用户上传一个发票图片（目前我们这工作流支持6种发票），发票会经过文档提取器。文档提取器提取用户上传的发票传递给llm多模态模型，这个模型的作用是判断这发票是哪个类型的发票，接下来我们会根据条…
前沿技术
- 9
- 0
charles25年5月11日
星辰 AI 大模型：中国电信的 AI 大模型集合平台，支持多模态任务和多语种处理

? 快速阅读星辰大模型是中国电信推出的 AI 大模型集合平台，涵盖语义、视觉和语音等多个领域。平台包括星辰语义模型、星辰语音大模型和星辰多模态大模型，支持多语种和多任务处理。星辰大模型的应用场景广泛，包括智能客服、内容审核、智能写作等。正文（附运行示例）星辰大模型是什么星辰大模型是中国电信推出的 AI 大模型集合平台，覆盖语义、视觉、语音等多模态领域。平台包含不同参数量级的模型，支持长文本处理，具…
前沿技术
- 10
- 0
charles25年5月11日
NotebookLM 启发的 AI 原生产品设计思路

Modality：模态转化知识产权液化，随时随地变形红红火火，其实和 NotebookLM 没什么关系。和 Audio Overview 更相关，5 月份 IO 大会上宣发，9 月份正式上线，两波流量上涨。Audio Overview 功能，和之前的 NotebookLM 相比，最直观的变化就是模态：语音。类似的例子其实可以参考"樊登读书"和抖音上的"3 分钟看完 X…
前沿技术
- 8
- 0
charles25年5月11日
Oasis，世界第一款 AI 实时生成游戏来了，在线试玩，体验未来

就在刚刚，世界上第一款 AI 实时生成的游戏，它来了！它的名字叫 Oasis 绿洲怀着激动的心情，立即上手试玩玩了一会儿，验明正身，确实是实时生成的。一起来看看试玩视频你就知道为什么了（试玩已开放，地址在文章最后）：虽然分辨率很渣虽然也没那么好玩但最重要的是，实时性不错没想到，可以这么快大众就可以体验到游戏的新技术了。AI 生成内容的的未来，一定会是，壮丽辉煌。AI 游戏技术简介 :Oasis…
前沿技术
- 5
- 0
charles25年5月11日
Cohere推出多模态 AI 搜索模型 Embed3了

场景问题需要用解决方案去落地，通过多模态AI搜索模型的方式去构建支持图像和文本搜索的企业级解决方案，这应该是很多初创公司很想去做的事情。近日，Cohere 公司发布了他们最先进的多模态 AI 搜索模型 Embed3，个人觉得这是Cohere在人工智能领域支持图像和文本搜索企业级解决方案上的重大突破。Embed3技术创新❶多模态学习的突破多模态学习是指让机器同时从多种不同类型的数据中学习，如文本、图…
前沿技术
- 5
- 0
charles25年5月11日
GPT-4o只考了21分：AI视觉推理能力受到严重质疑

德国达姆施塔特工业大学的一项新研究表明，即使是最先进的人工智能图像模型也无法完成简单的视觉推理任务。研究人员使用邦加德问题（Bongard problems）测试了各种视觉语言模型（VLMs）——这些是大多数人类能够直观解决的简单视觉谜题。这些由俄罗斯科学家米哈伊尔·邦加德创建的谜题呈现了12个简单图像，这些图像被分为两组。挑战在于找出区分这些组别的规则，这项任务考验抽象推理能力。比如其中的一个谜…
前沿技术
- 11
- 0
charles25年5月11日
【文档智能】文档解析揭秘：文档结构化信息提取技术、数据集综述

笔者在往期文章中分享了很多文档智能解析相关技术，传统的pipline的解析技术基本上如下图：下面再来通过一篇综述文章回顾下相关技术，文章介绍了传统pipline的文档解析技术、端到端的多模态文档解析技术和相关数据集。技术方法基于版式分析的pipline解析技术布局分析布局检测识别文档的结构元素，如文本块、段落、标题、图像、表格和数学表达式，以及它们的空间坐标和阅读顺序。其中，数学表达式的检测，特别…
前沿技术
- 7
- 0
charles25年5月11日
Midjourney又更新，AI版的PS来了

Midjourney又又更新了带来两个功能1、网页版在线编辑图片2、材质纹理重绘一个一个来网页版在线编辑图片，相当于局部重绘本地上传图片或丢给它网页图片链接，进入编辑界面，选中目标区域，就能通过提示词进行局部修改，改成任何想要的样子，相当于AI版的ps。涂抹选中头顶，戴上派对帽换上五颜六色的毛衣局部重绘，其实国内很多AI都支持，但是，论效果质量，和Midjourney有较大差距，后者在细节处理明显…
前沿技术
- 5
- 0
charles25年5月11日
AI时代的人性化交互：语音交互技术

本文作者为 360 奇舞团前端开发工程师为什么要介绍语音交互技术？过去，人们与设备或程序交互时，本质上是将用户的操作通过规范转化为机器码的形式与系统沟通。用户清楚自己是在与程序互动，并没有得到与“图灵人”的交互体验。然而，随着AI和大语言模型（LLM）的快速发展，用户在使用文本与这些系统的交互时，开始感受到LLM系统的强大，其可以理解和输出自然语言文本，已经没有了传统程序交互的僵化感，甚至体验…
前沿技术
- 4
- 0
charles25年5月11日
Stable Diffusion 3.5来了！更真实，更可控，更开放！魔搭社区推理最佳实践

01SD 3.5来了！Stability近期发布了最新模型Stable Diffusion 3.5系列（后简称 SD3.5），进行了全面的架构和培训更改，现在根据更新的、更宽松的社区license，增强了图像保真度、指令遵循和可控性。ModelScope生成的测试图像SD3.5 模型在以下领域表现出色可定制性：轻松微调模型以满足特定创作需求，或根据定制的工作流构建应用程序，多个开发者测试…
前沿技术
- 6
- 0
charles25年5月11日
360在图文多模态大模型领域的突破与实践

导读随着大模型技术的发展，图文多模态数据在互联网领域的应用越来越多。本文将分享 360 对图文多模态大模型技术的探索和实践。今天的介绍会围绕下面四点展开：1. 背景介绍2. 图文多模态大模型3. 360 多模态大模型探索4. 业务落地实践分享嘉宾｜谢春宇 360 多模态团队负责人编辑整理｜Edith内容校对｜李瑶出品社区｜DataFun01背景介…
前沿技术
- 7
- 0
charles25年5月11日
一块显卡理解一部完整电影！智源联合多所高校推出小时级的超长视频理解大模型Video-XL

长视频理解是多模态大模型的核心能力之一，也是迈向通用人工智能（AGI）的关键一步。然而，现有的多模态大模型在处理10分钟以上的超长视频时，仍然面临性能差和效率低的双重挑战。对此，智源研究院联合上海交通大学、中国人民大学、北京大学和北京邮电大学等多所高校，推出了小时级的超长视频理解大模型Video-XL。Video-XL借助语言模型（LLM）的原生能力对长视觉序列进行压缩，不仅保留了短视频理解的能力…
前沿技术
- 3
- 0
charles25年5月11日
我训练了一个医疗多模态大模型帮家里老人看病

前言随着多模态大模型的发展，其不仅限于文字处理，更能够在图像、视频、音频方面进行识别与理解。医疗领域中，医生们往往需要对各种医学图像进行处理，以辅助诊断和治疗。如果将多模态大模型与图像诊断相结合，那么这会极大地提升诊断效率。项目目标训练一个医疗多模态大模型，用于图像诊断。刚好家里老爷子近期略感头疼，去医院做了脑部CT，诊断患有垂体瘤，我将尝试使用多模态大模型进行进一步诊断。实现过程 1.…
前沿技术
- 7
- 0
charles25年5月11日
Multimodal AI 技术手册(一)

Multimodal AI: A Guide to Open-Source Vision Language Models前言：人类通过视觉、语言等多种表征媒介(模态)与世界互动，每种模态都可能在某个方面的表达和交流上有它自己的优势，融合在一起帮助我们更系统、更完整地理解这个世界。随着技术的发展，大预言模型基本实现独立自然的表达，视觉编码表征能力也逐渐增强，自然而然，我们就会想要把两方面的能力结合在…
前沿技术
- 5
- 0
charles25年5月11日
Stable Diffusion 3.5 ：大型多模态开放模型的发布

10 月 22 号 Stable AI 推出稳定 SD 3.5 版本开放模型。此公开版本包含多个模型变体，包括稳定扩散 3.5 Large 版本和稳定扩散 3.5 Large Turbo。此外，稳定扩散 3.5 medium 版本， Stable AI 又要重回巅峰了么。这里主要开…
前沿技术
- 6
- 0
charles25年5月11日
GPT-4o-Realtime应用场景

Azure OpenAI GPT-4o Realtime + AI search我做了一些语音的prompt优化，说中文语调比之前好了很多。对话中我故意增加了一些停顿和重复，测测对模型的影响。GPT-4o-Realtime在以下业务场景中表现出色，这些场景是之前的GPT-4o结合STT和TTS技术实现不太好的的：情感感知客服：在客户服务中心，GPT-4o-Realtime可以通过分析客户…
前沿技术
- 4
- 0
charles25年5月11日