全部标签

多模态技术

Deepseek 多模态来解析图片，结合上下文分析pdf文档

欢迎关注：打造你的文档小助手：PDF智能解析系统揭秘！嘿，朋友们！你有没有为翻阅一堆PDF文件头晕眼花过？有没有为从文档中提取关键信息熬夜到怀疑人生？别担心！今天我要隆重介绍一款“文档界的卷王” ——PDF智能解析系统！它不仅能帮你轻松搞定PDF，还能生成酷炫的分析报告，简直是懒人福音！这货到底有啥用？简单来说，这套系统能让你从“手动狗头”进化到“智能AI狗头”。它的核心功能包括： 1. …
前沿技术
- 7
- 0
charles25年5月30日
Lovart再次证明：AI不是卖工具而是卖成果

本周AI圈几乎被新的一款垂直Agent刷屏了。这就是由Liblib海外子公司推出的设计垂类agent：Lovart。与市面上的传统设计工具或嵌入式AI插件不同，它能够直接理解用户的自然语言指令，自动生成从品牌设计到营销物料的全流程、多模态内容，包括图像、视频和音乐。具体可以看下官方视频垂直领域深耕优于通用化竞争与前段时间爆火的通用型AI Agent-Manus不同，而Lovart则是设计专精…
前沿技术
- 5
- 0
charles25年5月28日
Dolphin-API：字节Dolphin多模态文档解析模型API化全攻略

Dolphin是字节跳动于2025年5月在Hugging Face等平台低调发布并开源的一款新型多模态文档图像解析模型。它并非简单地堆砌参数，而是通过精巧的架构设计，以约322M的参数量，在文档解析领域实现了令人瞩目的性能突破。本文将在项目源码的基础上，通过Docker部署Dolphin API可供dify平台调用。 Dolphin基本原理概述 Dolphin的核心特点在于其创新的“先分析后解析…
前沿技术
- 7
- 0
charles25年5月27日
本地AI对话神奇，ChatWise到底有什么用？

1.1. ChatWise 是什么？ ChatWise 是一款功能丰富的本地化 AI 聊天客户端。你可以把它理解为一个集成了多种 AI 模型调用、并提供了强大扩展能力的“AI 工作台”。它的核心特性包括：优秀的MCP支持：这是 ChatWise 最显著的亮点之一。它内置了对 MCP 协议的良好支持，并提供了相对直观和易用的界面来配置和管理各种 MCP 服务。这使得用户可以比较方便地将外部能力集成…
前沿技术
- 15
- 0
charles25年5月26日
从BGE到 CLIP，从文本到多模态，Embedding 模型选型终极指南

通过通过将原始输入转换为固定大小的高维向量，捕捉语义信息，embedding（嵌入）模型在构建RAG、推荐系统，甚至自动驾驶的模型训练过程中都产生着至关重要的影响。即使 OpenAI、Meta 和 Google 等科技巨头，也选择在近些年来，在 embedding 模型的研发上持续加大投入。以 OpenAI 为例，其最新的 text-embedding-3-small生成 1536 维向量，在…
前沿技术
- 11
- 0
charles25年5月25日
AI Agent到底哪家强？横评五款主流Agent

最近，满地都是AI Agent，仅最近半个月，就爆出了10多款（详细介绍）。来自近期在上海分享的PPT AI Agent，现已成为继LLM（Large Language Model，大语言模型）后的时髦新宠，各家厂商疯狂推Agent犹如过江之鲫。那么问题来了，到底哪个Agent更胜一筹？今天，我们就来给大家横向测评一下。关于测评方法我选择了5款热门的通用型AI Agent，分别是Gensp…
前沿技术
- 12
- 0
charles25年5月25日
AI Agent协议A2A交互细节详解

自我介绍大家好，我是Aaron。过去一直从事算法领域相关工作，自工作以来，一直持续在关注算法相关技术的发展，当前除了在工作中会进行一些AI的落地实践，工作之余也在通过AI辅助编程做一些有趣的探索，比如ragflow4j(https://github.com/aaronshan/ragflow4j) ，后续会持续更新AI实践过程中的心得体会，以及AI知识分享。欢迎大家关注我关注公众号，以便第一…
前沿技术
- 12
- 0
charles25年5月25日
技术思考:小尺寸+两阶段式多模态文档解析模型Dolphin思路评析及PP-OCRv5更新

今天是2025年5月23日，星期五，北京，阴。先来看看文档智能相关进展，在及技术路线上，也有一些新的玩法。比如，Dolphin检测+解析双阶段多模态文档解析思路，效果实测并不理想，尤其是带图片的文档，公式解析和复杂表格解析一般、OCR幻觉比较严重。工作是方案上的借鉴意义，并没有从性能上更改当前试图通过小尺寸模型实现真正可用的ocr-fre局面，还有很长的路要走。这一类(Nougat、Kosmo…
前沿技术
- 13
- 0
charles25年5月23日
Alivia VLM：企业级视觉智能体在门店场景落地实战

人工智能技术正在重塑商业决策范式。Alivia VLM 作为企业级视觉语言模型，基于多模态 AI 系统架构，融合深度视觉解析与语义理解能力，实现物理空间数字化与商业逻辑智能化的深度融合，为商业实体提供精准运营诊断与自动化执行方案。如果您对 Alivia VLM 视觉智能体的应用感兴趣，欢迎联系 hello@whale.im。01 Alivia VLM：赋能营收增长，驱动空间质检、管理与营销升级Al…
前沿技术
- 9
- 0
charles25年5月22日
Gemini接管搜索、全家桶秒变通用Agent ，以及Google Glass is so back！｜直击Google I/O

作者：王兆洋，Jessica，周一笑图：王兆洋谁也没想到，Google I/O现场的最高潮来自“复活”的Google Glass有些翻车了的实时demo。 2025年5月20日，Google的年度开发者大会Google I/O在加州山景城举办。与去年在举办之前一天被OpenAI“狙击”不同，今年的Google I/O，剑拔弩张的氛围让位给了派对的氛围，在ChatGPT带来的狼狈之后，Googl…
前沿技术
- 10
- 0
charles25年5月21日
扫描PDF转换太痛苦？pdf-craft秒转Markdown/EPUB，自动生成目录注释、引文对齐

本公众号主要关注NLP、CV、LLM、RAG、Agent等AI前沿技术，免费分享业界实战案例与课程，助力您全面拥抱AIGC。 PDF-Craft实战将 PDF 转换为 MarkDown from pdf_craft import PDFPageExtractor, MarkDownWriterextractor = PDFPageExtractor( device="cpu"…
前沿技术
- 14
- 0
charles25年5月20日
AI Studio 新增 Veo2 和 Imagen3.0 生成功能，中文支持有待优化

Google AI Studio 最近悄然新增了多媒体生成功能的支持，包括 Veo 2 用于生成视频，以及 Imagen 3.0 用于生成图片。这些功能涵盖了多种生成方式，如文字生成图片、文字生成视频，以及通过参考图片生成视频。体验入口已经开放，用户可以通过以下链接尝试：https://aistudio.google.com/gen-media官方还贴心地提供了多种风格的示例，供用户参…
前沿技术
- 11
- 0
charles25年5月20日
万字长文：OCR/多模态大模型评测体系全景

在金融、医疗、政务等对准确性要求极高的领域中，文档数字化一直是智能化转型的关键一环。传统的OCR技术凭借超过90%的识别准确率和240毫秒级别的极速响应，早已广泛应用于单据、合同、发票、身份证等场景。然而，面对更复杂的挑战，例如表格中错综复杂的合并单元格结构、跨页合同条款的逻辑关联，以及模糊发票中语义的连贯推断，专用的小模型逐渐暴露出难以突破的局限性。近年来，多模态大模型（Multimodal L…
前沿技术
- 14
- 0
charles25年5月20日
ollama 大版本0.7 发布，新引擎支持多模态模型

简介Ollama 发布大版本 v0.7.0，包括新的模型引擎，支持多模态大模型：• Meta Llama 4[1]• Google Gemma 3[2]• Qwen 2.5 VL[3]• Mistral Small 3.10[4]• 其它视觉模型[5]升级 ollamav0.7.0及以上版本的 ollama 才支持多模态模型，如果版本低于…
前沿技术
- 11
- 0
charles25年5月20日
退订即梦、可灵、Vidu、Mj，只因我有了Lovart

近期，一款名为Lovart的产品，以其“全球首款专业设计类Agent” (Design Agent)的定位，引发了国内外AI用户的广泛关注。第一时间，我也去找官方求了内测邀请码，在最近这一周多的深度测试使用下来，相比其他AI文生图产品，感觉到这个带有“思考”能力的Lovart，不仅仅只是一个文生图的工具，简直就是你的全能型专属AI设计总监！大家都有感受，AI文生图、AI设计领域的产品进化可谓是日新…
前沿技术
- 263
- 0
charles25年5月19日
全球首款设计Agent，Lovart在海外大火，马斯克亲自点赞

2025年，正在成为Agent元年，也是大年。最近，一款Design Agent在海外火爆上线，其Demo视频在X上收获了近70w的观看量。这款产品有多火呢？火到X用户@Robert Scoble 用Lovart做的Tesla广告，刚刚被马斯克亲自点赞。这张Cybertruck汽车的户外海报，丑（UGLY）并酷着。这位X博主用的AI产品，正是来自中国的Lovart，体验地址lovart.ai。据沃…
前沿技术
- 16
- 0
charles25年5月19日
破解RL训练崩溃难题，快手联合中科院、清华、南大提出多模态奖励模型R1-Reward！

多模态奖励模型（MRMs）在提升多模态大语言模型（MLLMs）的表现中起着至关重要的作用，在训练阶段可以提供稳定的reward，评估阶段可以选择更好的sample结果，甚至单独作为evaluator。尽管近期强化学习（RL）在传统视觉任务和多模态推理任务中取得了显著进展，但其在奖励建模中的应用仍然受到挑战，尤其是如何通过强化学习对奖励模型引入长期推理能力。快手、中科院、清华、南大的研究团队发现，直…
前沿技术
- 7
- 0
charles25年5月19日
深度体验 Lovart：这才是AI Design Agent！设计领域终于迎来了它们的「神」

前几天红杉 AI 峰会闭门6小时会议，150位全球顶尖AI创始人齐聚红杉资本会场。会议中留下了一些共识「下一轮 AI，卖的不是工具，而是收益。」真正的 AI 产品，不是“有没有能力”，而是“有没有结果”；不是“你点它做了什么”，而是“它替你完成了什么”。什么意思呢？就是 AI 不再只是被调用的模型，而是可以自主行动、可以自主决策、可以参与合作的经济参与者。而2025，无疑是AI Agent之年，各…
前沿技术
- 12
- 0
charles25年5月19日
看见设计的未来：Lovart 全球首个设计 Agent 体验

最近一直在内测一款令人惊艳的 Agent 产品，今天总算官宣了。它叫 Lovart，是世界上第一个专业设计 Agent。在 GPT 4o 生图功能上线之后，文生图领域便进入了新的时代。文生图模型的重大进步，也为设计工具的 Agent 化提供了全新的可能。那设计 Agent 到底是什么？让我们来看一段官方视频，感受一下：Lovart 的三个特点：一、全链路设计和执行，一句话搞定以前的文生图工具，它们…
前沿技术
- 6
- 0
charles25年5月19日
什么是基于知识图谱的多模态推理？

一、多模态推理基础：让AI学会“看、听、想”1. 什么是多模态推理？‌多模态推理是指机器通过‌整合多种感官模态信息‌（如文本、图像、音频、视频等），结合逻辑分析与语义理解，推导出隐含结论的过程。就像人类看到乌云密布会推测即将下雨，AI也能通过分析图像中的乌云和风速传感器的数据，预测天气变化。2. 多模态推理 vs 单模态推理维度多模态推理单模态推理输入源融合文本、图像、音频等单一数据源（如纯文本）…
前沿技术
- 11
- 0
charles25年5月19日
让Dify知识库“看懂”图片！一款MinerU 工作流解决方案

您是否正在遭遇以下困扰？有一个重要资料是纯图片格式，有一个文档是扫描版的PDF，想上传到dify的知识库做解析，可Dify根本读取不到。为了解决这个问题，我们可以使用MinerU来完美解决，让你的Dify知识库拥有解析图片的能力。本文将详细介绍一个工作流，使你的Dify知识库也拥有OCR的能力。(本文Dify版本为1.3.1)前期准备部署MinerU-API参考本公众号前两篇文章《在Dify中使用…
前沿技术
- 22
- 0
charles25年5月19日
Gemini API 集成 Imagen 3，带来更强大的图像生成功能

开发者现在可以通过 Gemini API 访问 Google 最先进的图像生成模型 Imagen 3。该模型最初仅对付费用户开放，不久后也将面向免费用户推出。Gemini APIhttps://ai.google.dev/gemini-api/docs/imagenImagen 3https://ai.google.dev/gemini-api/docs/imagen…
前沿技术
- 13
- 0
charles25年5月19日
Veo 2正式登陆Google AI Studio了——实在太疯狂了！

当时随便逛逛Google AI Studio，纯粹出于好奇想看看他们又搞了什么新花样。然后偶然发现了Veo 2。一开始我没抱什么期望……直到我随手输入了一个提示语并点击了“运行”。接下来发生了什么？我直接愣住了。我输入的文字，竟然瞬间变成了一段视频——是的，一段真正的、动态的、电影级的视频片段。只需要一句话，不需要任何高级软件，不需要编辑技巧，仅仅凭借想象力，敲几个字，砰的一下，奇迹就发生了。?所…
前沿技术
- 12
- 0
charles25年5月19日
GPT-4 和 GPT-4o的主要区别

一、GPT-4 和 GPT-4o的主要区别GPT-4o 是基于 GPT-4 的升级版本，新增了多模态功能，不仅能处理文本，还能理解和生成图像、视频等多种格式的内容。这使得 GPT-4o 成为一个原生多模态模型，具有更快的响应速度和更低的延迟，提高了在处理文本、音频和视觉信息的能力。另外一个区别是GPT-4o的聊天效果更加的自然，符合人类的对话习惯，你可能会忘记它是人工智能（就像她一样）。很适合练习…
前沿技术
- 14
- 0
charles25年5月19日