-
DeepSeek-OCR 实测
去年 12 月,DeepSeek 横空出世。官方宣传时不断拿自己和其他国际一流大模型对比,声称性能更强、效果更优,一度被包装成“国产大模型之光”。朋友圈、媒体、技术社区都在热议,仿佛一夜之间 AI 的未来已经被点亮。然而,实际体验下来,DeepSeek 的表现并没有达到宣传时的高度。与其说它“超越了最好的大模型”,不如说它在对比中显得严重名不符实。没想到,时隔10个月,DeepSeek 团队低调发…- 3
- 0
-
Qwen3-Omni:一个模型,全能不偏科
一个模型能够同时处理文字、图片、语音和视频了!新一代原生全模态大模型 Qwen3-Omni 正式发布。在 36 项音视频基准测试中,取得了 32 项开源模型最佳效果,22 项达到 SOTA 水平。在音视频能力强劲的同时,文本与图像的单模态性能保持稳定,真正实现“全模态不降智”。现阶段,Qwen3-Omni 已在 Hugging Face、ModelScope、DashScope…- 2
- 0
-
手把手教学:用n8n+RSS+飞书实现多平台热点自动抓取(含RSS源分享)
现在自动生成和发布有了,又有了新的问题,我们该写点什么呢?我平时写文章,都是看看各平台的热搜,然后还有最新资讯什么的,看看是否有合适的选题,可是每次都要打开各个平台去看,就比较麻烦。是否有办法将不同平台的热搜,甚至是自己主要关注的资讯合并到一起呢?还真有!今天就带大家用n8n + rss 打造一个自己专属的选题库,以下是我把这个功能集成到我软件的效果,现在通过我的软件,可以直接在这里搜到关键词,找…- 2
- 0
-
多模态AI质检:身份核验场景实践
本文介绍了一项将多模态AI模型应用于身份证照片质量检测的实践。针对用户上传身份证时常见的图片问题,项目通过引入阿里云百炼平台的多模态模型,在OCR识别失败时进行智能检测与反馈,提供对客友好的提示文案,从而引导用户重新上传合格照片。该方案采用“无感知预发布+递进+灰度”上线策略,确保稳定性,并在不牺牲安全性的前提下,利用大模型提升图像理解能力。业务背景随着现代互联网业务的不断发展与深入,用户身份信息…- 2
- 0
-
多模态大模型Keye-VL-1.5发布!视频理解能力更强!
近日,快手正式发布了多模态大语言模型Keye-VL-1.5-8B。与之前的版本相比,Keye-VL-1.5的综合性能实现显著提升,尤其在基础视觉理解能力方面,包括视觉元素识别、推理能力以及对时序信息的理—表现尤为突出。Keye-VL-1.5在同等规模的模型中表现出色,甚至超越了一些闭源模型如GPT-4o。Keye-VL-1.5-8B在技术上实现了三项关键创新:引入慢快编码策略(Slow-Fast)…- 3
- 0
-
Nano Banana 暴击 GPT-4o 绘图,谷歌赢麻了
五秒一张图,高质量,几乎是所有网友第一次用 Nano Banana 绘图的直观感受。这个模型不仅绘图快,而且P图足够狠,让谷歌在多模态战场上狠狠暴击了 OpenAI。为什么全世界都在聊 Nano Banana?首先,你必须要知道 Nano Banana 实际指的是谷歌新上线的绘图模型:gemini-2.5-flash-image-preview。此模型单张图…- 1
- 0
-
首个Nano-banana企业级多模态RAG教程,适合电商、游戏场景
最近全球刷屏Nano Banana,应该没有人还没用过吧?!它不仅能根据一句话描述,就生成栩栩如生的手办图片,还能根据用户的描述,对图片进行精细化编辑,就连速度,也快得出奇。(指令:为马斯克换帽子和裙子。可以看到右图所有要素除了稍微漏了裤边之外,融合还算不错,甚至还贴心考虑到了穿裙子需要把短袖扎进去的细节,整个生成耗时仅16.0s。)可以说,作为当下最优秀的生图模型,Nano Banana在一致性…- 2
- 0
-
MiniMax音频依托MCP协议,打造多模态Tool新标杆!
不管是企业拍摄广告,还是跨境电商,音频作为信息传播的主要载体,它的制作效率跟质量直接影响着作品的影响力。但是,传统的全人工音频制作流程耗费大量的人力与时间,效果也不尽人意,这不,MiniMax音频凭借它卓越的技术实力帮我们解决了这个痛点。01全球达人背书,看看真实用户怎么说?海外达人实测:YouTube创作者@Kingy AI使用MiniMax后直言:“用MiniMax Audio克隆我…- 2
- 0
-
给AI装个眼睛——能说、能看、能分享屏幕
快速0成本部署你的专属Gemini多模态AI助手!没错,就是Google最新发布的Gemini 2.0,不仅完全免费,还支持语音对话、视频通话、屏幕分享等功能。1.像和朋友/专家聊天一样与AI语音对话2.开启摄像头让AI"看"到你在做什么、识别物体、判别物料等(场景自己脑补)。3.分享屏幕让AI帮你分析代码、文档。4.手机电脑随时随地无缝使用。我已经帮你踩过所有的坑,整理了最详…- 1
- 0
-
AI 陪伴下半场,「桌宠」或是最好的载体
近一年,AI 伴侣类应用的数量还在不断增长。根据应用情报公司 Appfigures 提供的最新数据,在全球 337 款活跃且可创收的 AI 伴侣应用中,从 2025 年开始到今天,就发布了 128 款产品。截至 2025 年 7 月,苹果应用商店和谷歌应用商店中的 AI 伴侣应用全球下载量已达 2.2 亿次,2025 年上半年下载量同比增长 88%,达到 6000 万次。由于 AI 虚拟陪伴类产品…- 3
- 0
-
MIRIX重塑AI多模态长期记忆:超Gemini 410%,节省99.9%内存,APP同步上线
MIRIX,一个由 UCSD 和 NYU 团队主导的新系统,正在重新定义 AI 的记忆格局。 在过去的十年里,我们见证了大型语言模型席卷全球,从写作助手到代码生成器,无所不能。然而,即使最强大的模型依然有一个根本性的弱点:它们不记得你。 针对这一现状,加利福尼亚大学圣迭戈分校(UCSD) 博士生 Yu Wang 和纽约大学教授陈溪(Xi Chen)联合推出并开源了 MIRIX —— 全球首个真正…- 7
- 0
-
探索AI营养师:多模态知识图谱在食品领域大模型问答升级的革命性作用
摘要 我们提出了一个统一的食品领域问答框架,结合了大规模的多模态知识图谱(MMKG)和生成式人工智能。我们的MMKG链接了13,000个食谱、3,000种食材、140,000条关系以及14,000张图片。我们使用40个模板和LLaVA/DeepSeek增强技术生成了40,000对问答。通过联合微调Meta LLaMA 3.1-8B和Stable Diffusion 3.5-Large,将BERT分…- 10
- 0
-
多模态商品图文生成系统可落地的完整方案
围绕多模态商品图文生成系统,提供一套可落地的完整方案: 一、本地与在线部署流程详解 我们以 BLIP + 大语言模型(如ChatGLM/Qwen/ChatGPT) 的组合为基础,构建完整的“输入商品图片 → 生成商品描述”流程。 A. 本地部署方案(适合私有化/边缘部署) 技术选型: 图像→文本模型:BLIP / BLIP2(Hugging Face) 文本优化:Qwen/Qwen2, Cha…- 6
- 0
-
Coze、Dify、Ragflow等AI平台对比指南
dify、n8n、Coze、Fastgpt、Ragflow到底该怎么选?超详细指南~" data-itemshowtype="0" linktype="text" data-linktype="2">Dify、n8n、Coze、Fastgpt、Ragflow到底该怎么选?超详细指南~最近想选择一个平台尝试搭建智能体,以下是…- 30
- 0
-
基于 Ollama 多模态引擎的 Qwen 2.5 VL 模型部署及其应用
点击蓝字 关注我们Ollama 于 5 月份推出的全新多模态引擎。新的多模态引擎,可突破旧架构的设计依赖限制,为本地部署的多模态 AI 模型提供更准确、可靠、灵活的运行环境,并严格确保推理过程符合模型的设计初衷(忠于原始模型,对模型原始意图的忠实执行)。本文介绍基于Ollama 多模态模型引擎的 Qwen 2.5 VL 模型部署及其应用,主要内容如下: Ollama 全新多模态模型引擎介绍 Qwe…- 10
- 0
-
Dify落地知识库场景的小思考及多模态RAG结合图像信息的几种策略评估
今天是2025年7月1日,星期二,北京,晴 今天是2025年下半年的第一天,新的起点,我们继续看技术。 从评估角度看多模态RAG中的文档信息增强,逐步整合跨模态输入(文本、图像、字幕、OCR)后对应的相应影响,虽然说,这种范式看起来像是去年的,但温故而知新。 另外,来看看一个问题,关于dify是否应该被抛弃的一些思考?还是要分具体使用场景去看。 一、从评估角度看多模态RAG中的文档信息增强 来看最…- 16
- 0
-
RAG知识库构建新框架-EasyDoc小模型+多模态大模型结合的文档智能解析框架
传统的基于OCR的pipline的相关技术路线(如下图),目前多模态大模型的出现,文档解析技术链路出现了新的一些玩法。 最近看到一个新产品,EasyDoc(https://www.easylink-ai.com/easy-doc/),在原有的OCR链路中引入了多模态大模型进行图表理解,由此,笔者又更新了一张图,如下: 图2:OCRpipline结合多模态大模型的文档智能解析技术路线下面我们来看结合…- 12
- 0
-
Dify v1.4.0中的Multi-Modal LLM Output:基本操作和原理
本文使用dify 1.4.0版本,该版本除了浅色和深色模式之间切换功能外,还有一个重要功能,即多模态大语言模型输出,允许大语言模型(LLMs)在 LLMNode 中同时处理文本和图像。这一功能提升了数据交互的丰富性,并增强了模型的能力。 一.Gemini 2.0 Flash Exp模型 1.测试Chatflow流程 现在可使用 Gemini 2.0 Flash Exp 模型尝试这些新功能,这一集成…- 10
- 0
-
搜索 ≠ 简单匹配!0代码实现语义级图文互搜
在图像、文本、视频等非结构化数据爆发增长的今天,传统的图文检索方式已难以满足企业对高效、精准、可扩展的搜索需求。越来越多的应用开始支持“输入一段文字,找到最匹配的图片”或“上传一张图,找出视觉最相似的内容”。这些看似简单的功能背后,其实隐藏着不小的技术挑战。比如:如何快速从上百万张图片中找到最相似的?如何保证检索系统的扩展性和稳定性?如何降低开发和运维成本? 本方案将介绍借助阿里云 Milvus …- 10
- 0
-
AI提效99.5%!英国政府联手 Gemini,破解城市规划审批困局
❝手写批注 + 模糊地图 + 纸质文档 = 城市发展“卡脖子”难题?现在,AI只需40秒搞定!英国政府用 Google Gemini 多模态技术重塑城市规划系统,全国35万份积压申请即将“一键解码”!导语:AI,不止是聊天机器人,它正重构政府效率在英国,一份房屋建设或改造的申请常常需要数周才能审批通过。根源在于大量基于纸质档案的城市规划文件,图纸模糊、注释潦草、信息零散,规划人员常常要花上&nbs…- 6
- 0
-
多模态 RAG VS 传统文本 RAG ,到底效果如何,从应用视角来测试下
基于文本的传统 RAG 缺陷我们团队近期主要在做两件事:已有的文本知识库产品进行客户交付以及提供一些咨询服务正在研发一款多模态 RAG 产品在基于文本的知识库实际企业落地过程中,客户反馈最大的问题还是 准确率不足 。出现准确略不足的最主要原因还是数据源的复杂性,文档中存在图片、表格、页眉页脚、边框等都会影响到输出的准确性。即使在 RAGFlow 的 DeepDOC 和三方视觉模…- 8
- 0
-
实战复盘 | 基于视觉模型的多模态 RAG 系统,我们踩过的坑与收获 (项目已开源)
背景在 KnowFlow 内部交流群的同学都知道,近期我们团队在做一款基于视觉模型的多模态 RAG 系统。2 周左右密集开发之后,我们进行了全方位的测试,在群内公开召集难啃的文档,现在整体上对于多模态 RAG 有了更加深入的认识。分享本篇也是给同行的开发者或有意向的客户提供一些建议和思考,本文视角遵循客观、理性视角,大家放心食用。什么是多模态 RAG?目前市场内主流的 RAG 系统技术…- 14
- 0
-
多模态模型在RagFlow中的应用
在RagFlow的最新版本中(0.19.0)中,为了提升对文档中各类图片的解析效果,也尝试引入了多模态模型(image2text)对图片内容进行增强解析。我们来详细分析一下相关的过程。 首先需要在当前租户下配置一个image2text的模型(这里有个坑,后面会讲到),在RagFlow的文档解析过程中主要有三个场景使用到这个image2text模型,我们一一来看下: PDF文档内容提取 如果配置…- 5
- 0
-
清华首创多模态+知识图谱+RAG,问答精准度超 94%
本公众号主要关注NLP、CV、LLM、RAG、Agent等AI前沿技术,免费分享业界实战案例与课程,助力您全面拥抱AIGC。 一、多模态RAG面临的困难 知识图谱(KGs)通过将实体及其关系以结构化形式编码,为多跳推理和精准召回上下文提供了可行性。 但是在多模态资源中,实体之间的关系非常复杂,导致检索输出碎片化和持续的幻觉问题。 并且知识图谱的构建和维护需要大量人工劳动,将其与向量搜索和 LLM …- 5
- 0
❯
购物车
优惠劵
搜索
扫码打开当前页

联系我们
返回顶部
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!
























