-
硬核升级!在Ollama中使用Llama3.2视觉模型
“ 2024年11月6日,Ollama发布了0.4版本,新增支持在本地加载和运行Llama3.2视觉模型,包括11B和90B两个大小的版本。”01—快速入门1. 下载安装Ollama 0.4版本下载地址: https://ollama.com2. 运行Llama3.2视觉模型:ollama run llama3.2-vision3. 如果你的电脑配置足够强大…- 3
- 0
-
dify案例分享-基于多模态模型的发票识别2-多种发票识别
上期文章我们提到使用dify基于多模态模型实现单张发票识别功能。本期文章我们在原有的单张发票识别基础上实现多种发票识别的dify基于工作流的智能体。下面我们首先介绍一下整体功能。 这里面主要功能:用户上传一个发票图片(目前我们这工作流支持6种发票),发票会经过文档提取器。文档提取器提取用户上传的发票传递给llm多模态模型,这个模型的作用是判断这发票是哪个类型的发票,接下来我们会根据条…- 5
- 0
-
星辰 AI 大模型:中国电信的 AI 大模型集合平台,支持多模态任务和多语种处理
? 快速阅读星辰大模型是中国电信推出的 AI 大模型集合平台,涵盖语义、视觉和语音等多个领域。平台包括星辰语义模型、星辰语音大模型和星辰多模态大模型,支持多语种和多任务处理。星辰大模型的应用场景广泛,包括智能客服、内容审核、智能写作等。正文(附运行示例)星辰大模型是什么星辰大模型是中国电信推出的 AI 大模型集合平台,覆盖语义、视觉、语音等多模态领域。平台包含不同参数量级的模型,支持长文本处理,具…- 4
- 0
-
NotebookLM 启发的 AI 原生产品设计思路
Modality:模态转化知识产权液化,随时随地变形红红火火,其实和 NotebookLM 没什么关系。和 Audio Overview 更相关,5 月份 IO 大会上宣发,9 月份正式上线,两波流量上涨。Audio Overview 功能,和之前的 NotebookLM 相比,最直观的变化就是模态:语音。类似的例子其实可以参考"樊登读书"和抖音上的"3 分钟看完 X…- 5
- 0
-
Oasis,世界第一款 AI 实时生成游戏来了,在线试玩,体验未来
就在刚刚,世界上第一款 AI 实时生成的游戏,它来了!它的名字叫 Oasis 绿洲怀着激动的心情,立即上手试玩玩了一会儿,验明正身,确实是实时生成的。一起来看看试玩视频你就知道为什么了(试玩已开放,地址在文章最后):虽然分辨率很渣 虽然也没那么好玩 但最重要的是,实时性不错没想到,可以这么快大众就可以体验到游戏的新技术了。AI 生成内容的的未来,一定会是,壮丽辉煌。AI 游戏技术简介 :Oasis…- 1
- 0
-
Cohere推出多模态 AI 搜索模型 Embed3了
场景问题需要用解决方案去落地,通过多模态AI搜索模型的方式去构建支持图像和文本搜索的企业级解决方案,这应该是很多初创公司很想去做的事情。近日,Cohere 公司发布了他们最先进的多模态 AI 搜索模型 Embed3,个人觉得这是Cohere在人工智能领域支持图像和文本搜索企业级解决方案上的重大突破。Embed3技术创新❶多模态学习的突破多模态学习是指让机器同时从多种不同类型的数据中学习,如文本、图…- 2
- 0
-
GPT-4o只考了21分:AI视觉推理能力受到严重质疑
德国达姆施塔特工业大学的一项新研究表明,即使是最先进的人工智能图像模型也无法完成简单的视觉推理任务。研究人员使用邦加德问题(Bongard problems)测试了各种视觉语言模型(VLMs)——这些是大多数人类能够直观解决的简单视觉谜题。这些由俄罗斯科学家米哈伊尔·邦加德创建的谜题呈现了12个简单图像,这些图像被分为两组。挑战在于找出区分这些组别的规则,这项任务考验抽象推理能力。比如其中的一个谜…- 6
- 0
-
【文档智能】文档解析揭秘:文档结构化信息提取技术、数据集综述
笔者在往期文章中分享了很多文档智能解析相关技术,传统的pipline的解析技术基本上如下图:下面再来通过一篇综述文章回顾下相关技术,文章介绍了传统pipline的文档解析技术、端到端的多模态文档解析技术和相关数据集。技术方法基于版式分析的pipline解析技术布局分析布局检测识别文档的结构元素,如文本块、段落、标题、图像、表格和数学表达式,以及它们的空间坐标和阅读顺序。其中,数学表达式的检测,特别…- 6
- 0
-
Midjourney又更新,AI版的PS来了
Midjourney又又更新了带来两个功能1、网页版在线编辑图片2、材质纹理重绘一个一个来网页版在线编辑图片,相当于局部重绘本地上传图片或丢给它网页图片链接,进入编辑界面,选中目标区域,就能通过提示词进行局部修改,改成任何想要的样子,相当于AI版的ps。涂抹选中头顶,戴上派对帽换上五颜六色的毛衣局部重绘,其实国内很多AI都支持,但是,论效果质量,和Midjourney有较大差距,后者在细节处理明显…- 2
- 0
-
AI时代的人性化交互:语音交互技术
本文作者为 360 奇舞团前端开发工程师 为什么要介绍语音交互技术?过去,人们与设备或程序交互时,本质上是将用户的操作通过规范转化为机器码的形式与系统沟通。用户清楚自己是在与程序互动,并没有得到与“图灵人”的交互体验。 然而,随着AI和大语言模型(LLM)的快速发展,用户在使用文本与这些系统的交互时,开始感受到LLM系统的强大,其可以理解和输出自然语言文本,已经没有了传统程序交互的僵化感,甚至体验…- 2
- 0
-
Stable Diffusion 3.5来了!更真实,更可控,更开放!魔搭社区推理最佳实践
01SD 3.5来了!Stability近期发布了最新模型Stable Diffusion 3.5系列(后简称 SD3.5),进行了全面的架构和培训更改,现在根据更新的、更宽松的社区license,增强了图像保真度、指令遵循和可控性。ModelScope生成的测试图像SD3.5 模型在以下领域表现出色可定制性:轻松微调模型以满足特定创作需求,或根据定制的工作流构建应用程序,多个开发者测试…- 5
- 0
-
360在图文多模态大模型领域的突破与实践
导读 随着大模型技术的发展,图文多模态数据在互联网领域的应用越来越多。本文将分享 360 对图文多模态大模型技术的探索和实践。今天的介绍会围绕下面四点展开:1. 背景介绍2. 图文多模态大模型3. 360 多模态大模型探索4. 业务落地实践分享嘉宾|谢春宇 360 多模态团队负责人编辑整理|Edith内容校对|李瑶出品社区|DataFun01背景介…- 7
- 0
-
一块显卡理解一部完整电影!智源联合多所高校推出小时级的超长视频理解大模型Video-XL
长视频理解是多模态大模型的核心能力之一,也是迈向通用人工智能(AGI)的关键一步。然而,现有的多模态大模型在处理10分钟以上的超长视频时,仍然面临性能差和效率低的双重挑战。对此,智源研究院联合上海交通大学、中国人民大学、北京大学和北京邮电大学等多所高校,推出了小时级的超长视频理解大模型Video-XL。Video-XL借助语言模型(LLM)的原生能力对长视觉序列进行压缩,不仅保留了短视频理解的能力…- 2
- 0
-
我训练了一个医疗多模态大模型帮家里老人看病
前言 随着多模态大模型的发展,其不仅限于文字处理,更能够在图像、视频、音频方面进行识别与理解。医疗领域中,医生们往往需要对各种医学图像进行处理,以辅助诊断和治疗。如果将多模态大模型与图像诊断相结合,那么这会极大地提升诊断效率。 项目目标 训练一个医疗多模态大模型,用于图像诊断。 刚好家里老爷子近期略感头疼,去医院做了脑部CT,诊断患有垂体瘤,我将尝试使用多模态大模型进行进一步诊断。 实现过程 1.…- 5
- 0
-
Multimodal AI 技术手册(一)
Multimodal AI: A Guide to Open-Source Vision Language Models前言:人类通过视觉、语言等多种表征媒介(模态)与世界互动,每种模态都可能在某个方面的表达和交流上有它自己的优势,融合在一起帮助我们更系统、更完整地理解这个世界。随着技术的发展,大预言模型基本实现独立自然的表达,视觉编码表征能力也逐渐增强,自然而然,我们就会想要把两方面的能力结合在…- 4
- 0
-
Stable Diffusion 3.5 :大型多模态开放模型的发布
10 月 22 号 Stable AI 推出稳定 SD 3.5 版本开放模型。此公开版本包含多个模型变体,包括稳定扩散 3.5 Large 版本和稳定扩散 3.5 Large Turbo。此外,稳定扩散 3.5 medium 版本, Stable AI 又要重回巅峰了么。 这里主要开…- 6
- 0
-
GPT-4o-Realtime应用场景
Azure OpenAI GPT-4o Realtime + AI search我做了一些语音的prompt优化,说中文语调比之前好了很多。对话中我故意增加了一些停顿和重复,测测对模型的影响。GPT-4o-Realtime在以下业务场景中表现出色,这些场景是之前的GPT-4o结合STT和TTS技术实现不太好的的:情感感知客服:在客户服务中心,GPT-4o-Realtime可以通过分析客户…- 3
- 0
-
多模态技术,释放垂直AI软件潜力的关键
不久前,Bessemer提出了一个很有价值的观点:垂直AI软件将成为未来。说起Bessemer,熟悉SaaS行业的人可能并不陌生。它是美国SaaS领域最专业的投资机构之一,在过去10年投资了200多家SaaS企业。为了更好讲清楚垂直AI软件的价值,Bessemer发布了垂直AI路线图,总共四个部分。本文是Bessemer的垂直AI路线图的第二篇文章。在这篇文章中,Bessemer会分享其对以下问题…- 6
- 0
-
重磅!ChatGPT实时语音终于要来了!附详细使用说明
对于AI领域的领头羊OpenAI,你在期待什么?GPT-5还是文生视频模型Sora?或者是ChatGPT实时语音功能!对于ChatGPT实时语音功能,我们等了太久。而今天,它终于要来了!就在刚刚,OpenAI通过社交媒体官宣,实时语音功能(OpenAI官方命名为:Advanced Voice Mode)将在本周内向所有ChatGPT Plus和Team会员用户推送。同时,OpenAI还为实时语音功…- 2
- 0
-
NotebookLM +PodLM + F5:AI播客系列,个性化中英文播客(本地安装、Colab部署)
? Insight Daily ? Aitrainee | 公众号:AI进修生 Hi,这里是Aitrainee,欢迎阅读本期新文章。 前段时间,NotebookLM 凭借其‘AI 播客’功能出圈了。它能将复杂材料转化为更接地气的语音访谈形式。虽然我们通常选择直接查看内容,但长时间使用同一种方式总会感到疲惫。此时,躺在床上或椅子上,把原材料丢进去,让 AI 生成一男一女的对话播客,确实让信息吸收变得…- 5
- 0
-
通过 Swarm 构建模块化、可扩展的多代理应用程序
OpenAI 近期推出了 Swarm 框架,这是 OpenAI 首次开源的项目。Swarm 是一个无状态、轻量级多代理框架,利用 “协程” 和 “交接” 的概念来协调多个 AI 代理。这将复杂的任务分解成更小的、更易管理的单元,从而简化了任务,而且人工智能代理可以在任何时候选择将对话交接给另一个代理。 与单个代理中管理大量提示和不同逻辑相比,Swarm是一种稳健且可扩展的方法。示例库提供了可以轻松…- 5
- 0
-
UniIR:通用多模态信息检索模型训练和评测标准
现有的信息检索(IR)模型通常假设一个同质化的格式,限制了它们对多样化用户需求的适用性,例如用文本描述搜索图像,用新闻标题图片搜索新闻文章,或用查询图像找到类似的图片。为了满足这些不同的信息检索需求,我们引入了UniIR,这是一个统一的、由指令引导的多模态检索器,能够处理跨模态的八种不同的检索任务。UniIR是一个单一的检索系统,联合训练了十个不同的多模态IR数据集,解释用户指令以执行各种检索任务…- 7
- 0
-
探索 Phi-3-Vision-128K:引领未来的 AI 文档处理与 OCR 技术
在人工智能领域飞速发展的今天,多模态模型正逐渐成为整合视觉与文本数据的新标准。Phi-3-Vision-128K-Instruct 是这一趋势中的最新突破,作为目前最先进的多模态模型,它大大提升了人工智能在处理图像与文本方面的能力。该模型特别擅长文档提取、光学字符识别(OCR)和通用图像理解,彻底改变了我们解析 PDF、图表、表格等结构化或半结构化信息的方式。本文将深入探讨 Phi-3-Visio…- 2
- 0
-
多模态大模型有哪些落地场景?贝壳、海尔等4家头部企业实践
大模型正在从单一模态向多模态发展,多模态成为大模型落地发展的必经之路。一方面多模态数据无处不在且加速增长,未来用于大模型训练的数据中多模态数据占比将越来越大;另一方面,文本大模型只能理解文本意思并进行文本类的表达,但人类并不是从单模态中进行学习的,恰恰相反,我们会同时结合来自不同类型数据的信息来理解这个世界。越来越多的基础大模型正在遵循人类学习的路径,基于多种模态数据进行训练,这些额外的模态将有助…- 7
- 0
❯
购物车
优惠劵
搜索
扫码打开当前页

联系我们
返回顶部
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!























