-
AI Agent到底哪家强?横评五款主流Agent
最近,满地都是AI Agent,仅最近半个月,就爆出了10多款(详细介绍)。 来自近期在上海分享的PPT AI Agent,现已成为继LLM(Large Language Model,大语言模型)后的时髦新宠,各家厂商疯狂推Agent犹如过江之鲫。 那么问题来了,到底哪个Agent更胜一筹?今天,我们就来给大家横向测评一下。 关于测评方法 我选择了5款热门的通用型AI Agent,分别是Gensp…- 0
- 0
-
AI Agent协议A2A交互细节详解
自我介绍 大家好,我是Aaron。过去一直从事算法领域相关工作,自工作以来,一直持续在关注算法相关技术的发展,当前除了在工作中会进行一些AI的落地实践,工作之余也在通过AI辅助编程做一些有趣的探索,比如ragflow4j(https://github.com/aaronshan/ragflow4j) ,后续会持续更新AI实践过程中的心得体会,以及AI知识分享。欢迎大家关注我关注公众号,以便第一…- 0
- 0
-
技术思考:小尺寸+两阶段式多模态文档解析模型Dolphin思路评析及PP-OCRv5更新
今天是2025年5月23日,星期五,北京,阴。 先来看看文档智能相关进展,在及技术路线上,也有一些新的玩法。比如,Dolphin检测+解析双阶段多模态文档解析思路,效果实测并不理想,尤其是带图片的文档,公式解析和复杂表格解析一般、OCR幻觉比较严重。工作是方案上的借鉴意义,并没有从性能上更改当前试图通过小尺寸模型实现真正可用的ocr-fre局面,还有很长的路要走。 这一类(Nougat、Kosmo…- 2
- 0
-
Alivia VLM:企业级视觉智能体在门店场景落地实战
人工智能技术正在重塑商业决策范式。Alivia VLM 作为企业级视觉语言模型,基于多模态 AI 系统架构,融合深度视觉解析与语义理解能力,实现物理空间数字化与商业逻辑智能化的深度融合,为商业实体提供精准运营诊断与自动化执行方案。如果您对 Alivia VLM 视觉智能体的应用感兴趣,欢迎联系 hello@whale.im。01 Alivia VLM:赋能营收增长,驱动空间质检、管理与营销升级Al…- 1
- 0
-
Gemini接管搜索、全家桶秒变通用Agent ,以及Google Glass is so back!|直击Google I/O
作者:王兆洋,Jessica,周一笑 图:王兆洋谁也没想到,Google I/O现场的最高潮来自“复活”的Google Glass有些翻车了的实时demo。 2025年5月20日,Google的年度开发者大会Google I/O在加州山景城举办。 与去年在举办之前一天被OpenAI“狙击”不同,今年的Google I/O,剑拔弩张的氛围让位给了派对的氛围,在ChatGPT带来的狼狈之后,Googl…- 2
- 0
-
扫描PDF转换太痛苦?pdf-craft秒转Markdown/EPUB,自动生成目录注释、引文对齐
本公众号主要关注NLP、CV、LLM、RAG、Agent等AI前沿技术,免费分享业界实战案例与课程,助力您全面拥抱AIGC。 PDF-Craft实战 将 PDF 转换为 MarkDown from pdf_craft import PDFPageExtractor, MarkDownWriterextractor = PDFPageExtractor( device="cpu"…- 3
- 0
-
AI Studio 新增 Veo2 和 Imagen3.0 生成功能,中文支持有待优化
Google AI Studio 最近悄然新增了多媒体生成功能的支持,包括 Veo 2 用于生成视频,以及 Imagen 3.0 用于生成图片。这些功能涵盖了多种生成方式,如文字生成图片、文字生成视频,以及通过参考图片生成视频。体验入口已经开放,用户可以通过以下链接尝试:https://aistudio.google.com/gen-media官方还贴心地提供了多种风格的示例,供用户参…- 2
- 0
-
万字长文:OCR/多模态大模型评测体系全景
在金融、医疗、政务等对准确性要求极高的领域中,文档数字化一直是智能化转型的关键一环。传统的OCR技术凭借超过90%的识别准确率和240毫秒级别的极速响应,早已广泛应用于单据、合同、发票、身份证等场景。然而,面对更复杂的挑战,例如表格中错综复杂的合并单元格结构、跨页合同条款的逻辑关联,以及模糊发票中语义的连贯推断,专用的小模型逐渐暴露出难以突破的局限性。近年来,多模态大模型(Multimodal L…- 2
- 0
-
ollama 大版本0.7 发布,新引擎支持多模态模型
简介Ollama 发布大版本 v0.7.0,包括新的模型引擎,支持多模态大模型:• Meta Llama 4[1]• Google Gemma 3[2]• Qwen 2.5 VL[3]• Mistral Small 3.10[4]• 其它视觉模型[5]升级 ollamav0.7.0及以上版本的 ollama 才支持多模态模型,如果版本低于…- 3
- 0
-
退订即梦、可灵、Vidu、Mj,只因我有了Lovart
近期,一款名为Lovart的产品,以其“全球首款专业设计类Agent” (Design Agent)的定位,引发了国内外AI用户的广泛关注。第一时间,我也去找官方求了内测邀请码,在最近这一周多的深度测试使用下来,相比其他AI文生图产品,感觉到这个带有“思考”能力的Lovart,不仅仅只是一个文生图的工具,简直就是你的全能型专属AI设计总监!大家都有感受,AI文生图、AI设计领域的产品进化可谓是日新…- 3
- 0
-
全球首款设计Agent,Lovart在海外大火,马斯克亲自点赞
2025年,正在成为Agent元年,也是大年。最近,一款Design Agent在海外火爆上线,其Demo视频在X上收获了近70w的观看量。这款产品有多火呢?火到X用户@Robert Scoble 用Lovart做的Tesla广告,刚刚被马斯克亲自点赞。这张Cybertruck汽车的户外海报,丑(UGLY)并酷着。这位X博主用的AI产品,正是来自中国的Lovart,体验地址lovart.ai。据沃…- 2
- 0
-
破解RL训练崩溃难题,快手联合中科院、清华、南大提出多模态奖励模型R1-Reward!
多模态奖励模型(MRMs)在提升多模态大语言模型(MLLMs)的表现中起着至关重要的作用,在训练阶段可以提供稳定的reward,评估阶段可以选择更好的sample结果,甚至单独作为evaluator。尽管近期强化学习(RL)在传统视觉任务和多模态推理任务中取得了显著进展,但其在奖励建模中的应用仍然受到挑战,尤其是如何通过强化学习对奖励模型引入长期推理能力。快手、中科院、清华、南大的研究团队发现,直…- 2
- 0
-
深度体验 Lovart:这才是AI Design Agent!设计领域终于迎来了它们的「神」
前几天红杉 AI 峰会闭门6小时会议,150位全球顶尖AI创始人齐聚红杉资本会场。会议中留下了一些共识「下一轮 AI,卖的不是工具,而是收益。」真正的 AI 产品,不是“有没有能力”,而是“有没有结果”;不是“你点它做了什么”,而是“它替你完成了什么”。什么意思呢?就是 AI 不再只是被调用的模型,而是可以自主行动、可以自主决策、可以参与合作的经济参与者。而2025,无疑是AI Agent之年,各…- 2
- 0
-
看见设计的未来:Lovart 全球首个设计 Agent 体验
最近一直在内测一款令人惊艳的 Agent 产品,今天总算官宣了。它叫 Lovart,是世界上第一个专业设计 Agent。在 GPT 4o 生图功能上线之后,文生图领域便进入了新的时代。文生图模型的重大进步,也为设计工具的 Agent 化提供了全新的可能。那设计 Agent 到底是什么?让我们来看一段官方视频,感受一下:Lovart 的三个特点:一、全链路设计和执行,一句话搞定以前的文生图工具,它们…- 2
- 0
-
什么是基于知识图谱的多模态推理?
一、多模态推理基础:让AI学会“看、听、想”1. 什么是多模态推理?多模态推理是指机器通过整合多种感官模态信息(如文本、图像、音频、视频等),结合逻辑分析与语义理解,推导出隐含结论的过程。就像人类看到乌云密布会推测即将下雨,AI也能通过分析图像中的乌云和风速传感器的数据,预测天气变化。2. 多模态推理 vs 单模态推理维度多模态推理单模态推理输入源融合文本、图像、音频等单一数据源(如纯文本)…- 2
- 0
-
让Dify知识库“看懂”图片!一款MinerU 工作流解决方案
您是否正在遭遇以下困扰?有一个重要资料是纯图片格式,有一个文档是扫描版的PDF,想上传到dify的知识库做解析,可Dify根本读取不到。为了解决这个问题,我们可以使用MinerU来完美解决,让你的Dify知识库拥有解析图片的能力。本文将详细介绍一个工作流,使你的Dify知识库也拥有OCR的能力。(本文Dify版本为1.3.1)前期准备部署MinerU-API参考本公众号前两篇文章《在Dify中使用…- 3
- 0
-
Gemini API 集成 Imagen 3,带来更强大的图像生成功能
开发者现在可以通过 Gemini API 访问 Google 最先进的图像生成模型 Imagen 3。该模型最初仅对付费用户开放,不久后也将面向免费用户推出。Gemini APIhttps://ai.google.dev/gemini-api/docs/imagenImagen 3https://ai.google.dev/gemini-api/docs/imagen…- 4
- 0
-
Veo 2正式登陆Google AI Studio了——实在太疯狂了!
当时随便逛逛Google AI Studio,纯粹出于好奇想看看他们又搞了什么新花样。然后偶然发现了Veo 2。一开始我没抱什么期望……直到我随手输入了一个提示语并点击了“运行”。接下来发生了什么?我直接愣住了。我输入的文字,竟然瞬间变成了一段视频——是的,一段真正的、动态的、电影级的视频片段。只需要一句话,不需要任何高级软件,不需要编辑技巧,仅仅凭借想象力,敲几个字,砰的一下,奇迹就发生了。?所…- 2
- 0
-
GPT-4 和 GPT-4o的主要区别
一、GPT-4 和 GPT-4o的主要区别GPT-4o 是基于 GPT-4 的升级版本,新增了多模态功能,不仅能处理文本,还能理解和生成图像、视频等多种格式的内容。这使得 GPT-4o 成为一个原生多模态模型,具有更快的响应速度和更低的延迟,提高了在处理文本、音频和视觉信息的能力。另外一个区别是GPT-4o的聊天效果更加的自然,符合人类的对话习惯,你可能会忘记它是人工智能(就像她一样)。很适合练习…- 2
- 0
-
ChatGPT记忆功能全解析:实用场景与操作指南
ChatGPT记忆功能全解析:实用场景与操作指南写在前面2024年4月26日,打开ChatGPT收到官方的更新公告:Memory功能上线,可以优先体验。官方FAQ链接https://help.openai.com/en/articles/8590148-memory-faq本来没有计划写的,了解一下之后还是给大家介绍一下。By DALL·E (现在图中的文字都是正常拼写)过去ChatGP…- 2
- 0
-
Flowise AI 工作流进阶: 常用组件介绍+连 Notion 做知识库
上篇文章5个开源AI工作流项目,图形化界面拖拉拽自定义 Agent提到 linkai,细看了下,被linkai价格劝退, 他家开源版本只是一个接入 wechat 的小项目, 需要调 link ai 的 api , 意思是需要你在这个平台上配置 agent, 这个平台是不开源的, 所以还是看 Flowise花了一周多时间部署测试了 Flowise,下面是一些测试的笔记,可能没有写得很细, 想要详细教…- 7
- 0
-
面壁小钢炮 MiniCPM-V 2.6 部署指南
再次刷新端侧多模态天花板,面壁「小钢炮」 MiniCPM-V 2.6 模型重磅上新!发布即支持 llama.cpp、ollama、vllm 推理!仅 8B 参数,取得 20B 以下单图、多图、视频理解 3 SOTA 成绩,一举将端侧AI多模态能力拉升至全面对标 GPT-4V 水平。更有多项功能首次上「端」:小钢炮一口气将实时视频理解、多图联合理解、…- 2
- 0
-
Qwen2-VL 全链路模型体验、下载、推理、微调实战!
01引言经过了一年的不懈努力,今天通义千问团队对 Qwen-VL 模型进行重大更新——推出 Qwen2-VL。Qwen2-VL 有什么新功能?· 增强的图像理解能力:Qwen2-VL显著提高了模型理解和解释视觉信息的能力,为关键性能指标设定了新的基准· 高级视频理解能力:Qwen2-VL具有卓越的在线流媒体功能,能够以很高的精度实时分析动态视频内容· 集成的可视化agent功能…- 2
- 0
-
智谱开源新一代多模态大模型CogVLM2,性能媲美GPT-4V
前言多模态大模型(MLLM)是近年来人工智能领域最热门的研究方向之一,其能够融合图像、文本等多种模态信息,实现更强大、更灵活的应用。然而,现有的主流多模态模型多以英文为训练语言,在中文理解方面存在着明显的短板。为了突破这一局限,智谱 AI 团队推出了新一代中文多模态大模型 CogVLM2,并将其开源,为中文多模态领域的发展贡献力量。技术特点CogVLM2 继承并优化了上一代模型的经典架构,采用了一…- 2
- 0
❯
购物车
优惠劵
搜索
扫码打开当前页
联系我们
返回顶部
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!