-
ollama 大版本0.7 发布,新引擎支持多模态模型
简介Ollama 发布大版本 v0.7.0,包括新的模型引擎,支持多模态大模型:• Meta Llama 4[1]• Google Gemma 3[2]• Qwen 2.5 VL[3]• Mistral Small 3.10[4]• 其它视觉模型[5]升级 ollamav0.7.0及以上版本的 ollama 才支持多模态模型,如果版本低于…- 5
- 0
-
退订即梦、可灵、Vidu、Mj,只因我有了Lovart
近期,一款名为Lovart的产品,以其“全球首款专业设计类Agent” (Design Agent)的定位,引发了国内外AI用户的广泛关注。第一时间,我也去找官方求了内测邀请码,在最近这一周多的深度测试使用下来,相比其他AI文生图产品,感觉到这个带有“思考”能力的Lovart,不仅仅只是一个文生图的工具,简直就是你的全能型专属AI设计总监!大家都有感受,AI文生图、AI设计领域的产品进化可谓是日新…- 125
- 0
-
全球首款设计Agent,Lovart在海外大火,马斯克亲自点赞
2025年,正在成为Agent元年,也是大年。最近,一款Design Agent在海外火爆上线,其Demo视频在X上收获了近70w的观看量。这款产品有多火呢?火到X用户@Robert Scoble 用Lovart做的Tesla广告,刚刚被马斯克亲自点赞。这张Cybertruck汽车的户外海报,丑(UGLY)并酷着。这位X博主用的AI产品,正是来自中国的Lovart,体验地址lovart.ai。据沃…- 3
- 0
-
破解RL训练崩溃难题,快手联合中科院、清华、南大提出多模态奖励模型R1-Reward!
多模态奖励模型(MRMs)在提升多模态大语言模型(MLLMs)的表现中起着至关重要的作用,在训练阶段可以提供稳定的reward,评估阶段可以选择更好的sample结果,甚至单独作为evaluator。尽管近期强化学习(RL)在传统视觉任务和多模态推理任务中取得了显著进展,但其在奖励建模中的应用仍然受到挑战,尤其是如何通过强化学习对奖励模型引入长期推理能力。快手、中科院、清华、南大的研究团队发现,直…- 3
- 0
-
深度体验 Lovart:这才是AI Design Agent!设计领域终于迎来了它们的「神」
前几天红杉 AI 峰会闭门6小时会议,150位全球顶尖AI创始人齐聚红杉资本会场。会议中留下了一些共识「下一轮 AI,卖的不是工具,而是收益。」真正的 AI 产品,不是“有没有能力”,而是“有没有结果”;不是“你点它做了什么”,而是“它替你完成了什么”。什么意思呢?就是 AI 不再只是被调用的模型,而是可以自主行动、可以自主决策、可以参与合作的经济参与者。而2025,无疑是AI Agent之年,各…- 3
- 0
-
看见设计的未来:Lovart 全球首个设计 Agent 体验
最近一直在内测一款令人惊艳的 Agent 产品,今天总算官宣了。它叫 Lovart,是世界上第一个专业设计 Agent。在 GPT 4o 生图功能上线之后,文生图领域便进入了新的时代。文生图模型的重大进步,也为设计工具的 Agent 化提供了全新的可能。那设计 Agent 到底是什么?让我们来看一段官方视频,感受一下:Lovart 的三个特点:一、全链路设计和执行,一句话搞定以前的文生图工具,它们…- 4
- 0
-
什么是基于知识图谱的多模态推理?
一、多模态推理基础:让AI学会“看、听、想”1. 什么是多模态推理?多模态推理是指机器通过整合多种感官模态信息(如文本、图像、音频、视频等),结合逻辑分析与语义理解,推导出隐含结论的过程。就像人类看到乌云密布会推测即将下雨,AI也能通过分析图像中的乌云和风速传感器的数据,预测天气变化。2. 多模态推理 vs 单模态推理维度多模态推理单模态推理输入源融合文本、图像、音频等单一数据源(如纯文本)…- 3
- 0
-
让Dify知识库“看懂”图片!一款MinerU 工作流解决方案
您是否正在遭遇以下困扰?有一个重要资料是纯图片格式,有一个文档是扫描版的PDF,想上传到dify的知识库做解析,可Dify根本读取不到。为了解决这个问题,我们可以使用MinerU来完美解决,让你的Dify知识库拥有解析图片的能力。本文将详细介绍一个工作流,使你的Dify知识库也拥有OCR的能力。(本文Dify版本为1.3.1)前期准备部署MinerU-API参考本公众号前两篇文章《在Dify中使用…- 5
- 0
-
Gemini API 集成 Imagen 3,带来更强大的图像生成功能
开发者现在可以通过 Gemini API 访问 Google 最先进的图像生成模型 Imagen 3。该模型最初仅对付费用户开放,不久后也将面向免费用户推出。Gemini APIhttps://ai.google.dev/gemini-api/docs/imagenImagen 3https://ai.google.dev/gemini-api/docs/imagen…- 6
- 0
-
Veo 2正式登陆Google AI Studio了——实在太疯狂了!
当时随便逛逛Google AI Studio,纯粹出于好奇想看看他们又搞了什么新花样。然后偶然发现了Veo 2。一开始我没抱什么期望……直到我随手输入了一个提示语并点击了“运行”。接下来发生了什么?我直接愣住了。我输入的文字,竟然瞬间变成了一段视频——是的,一段真正的、动态的、电影级的视频片段。只需要一句话,不需要任何高级软件,不需要编辑技巧,仅仅凭借想象力,敲几个字,砰的一下,奇迹就发生了。?所…- 4
- 0
-
GPT-4 和 GPT-4o的主要区别
一、GPT-4 和 GPT-4o的主要区别GPT-4o 是基于 GPT-4 的升级版本,新增了多模态功能,不仅能处理文本,还能理解和生成图像、视频等多种格式的内容。这使得 GPT-4o 成为一个原生多模态模型,具有更快的响应速度和更低的延迟,提高了在处理文本、音频和视觉信息的能力。另外一个区别是GPT-4o的聊天效果更加的自然,符合人类的对话习惯,你可能会忘记它是人工智能(就像她一样)。很适合练习…- 2
- 0
-
ChatGPT记忆功能全解析:实用场景与操作指南
ChatGPT记忆功能全解析:实用场景与操作指南写在前面2024年4月26日,打开ChatGPT收到官方的更新公告:Memory功能上线,可以优先体验。官方FAQ链接https://help.openai.com/en/articles/8590148-memory-faq本来没有计划写的,了解一下之后还是给大家介绍一下。By DALL·E (现在图中的文字都是正常拼写)过去ChatGP…- 140
- 0
-
Flowise AI 工作流进阶: 常用组件介绍+连 Notion 做知识库
上篇文章5个开源AI工作流项目,图形化界面拖拉拽自定义 Agent提到 linkai,细看了下,被linkai价格劝退, 他家开源版本只是一个接入 wechat 的小项目, 需要调 link ai 的 api , 意思是需要你在这个平台上配置 agent, 这个平台是不开源的, 所以还是看 Flowise花了一周多时间部署测试了 Flowise,下面是一些测试的笔记,可能没有写得很细, 想要详细教…- 10
- 0
-
面壁小钢炮 MiniCPM-V 2.6 部署指南
再次刷新端侧多模态天花板,面壁「小钢炮」 MiniCPM-V 2.6 模型重磅上新!发布即支持 llama.cpp、ollama、vllm 推理!仅 8B 参数,取得 20B 以下单图、多图、视频理解 3 SOTA 成绩,一举将端侧AI多模态能力拉升至全面对标 GPT-4V 水平。更有多项功能首次上「端」:小钢炮一口气将实时视频理解、多图联合理解、…- 3
- 0
-
Qwen2-VL 全链路模型体验、下载、推理、微调实战!
01引言经过了一年的不懈努力,今天通义千问团队对 Qwen-VL 模型进行重大更新——推出 Qwen2-VL。Qwen2-VL 有什么新功能?· 增强的图像理解能力:Qwen2-VL显著提高了模型理解和解释视觉信息的能力,为关键性能指标设定了新的基准· 高级视频理解能力:Qwen2-VL具有卓越的在线流媒体功能,能够以很高的精度实时分析动态视频内容· 集成的可视化agent功能…- 3
- 0
-
智谱开源新一代多模态大模型CogVLM2,性能媲美GPT-4V
前言多模态大模型(MLLM)是近年来人工智能领域最热门的研究方向之一,其能够融合图像、文本等多种模态信息,实现更强大、更灵活的应用。然而,现有的主流多模态模型多以英文为训练语言,在中文理解方面存在着明显的短板。为了突破这一局限,智谱 AI 团队推出了新一代中文多模态大模型 CogVLM2,并将其开源,为中文多模态领域的发展贡献力量。技术特点CogVLM2 继承并优化了上一代模型的经典架构,采用了一…- 4
- 0
-
周鸿祎发布纳米搜索,做世界第一的AI搜索
周鸿祎用短剧+直播结合的方式发布了新产品:纳米搜索,并且喊出口号:做世界第一的AI搜索! 为何能做到?上图写了三个要点:易用、360有桌面、浏览器、搜索三大入口优势,还有周鸿祎自己的IP加持。 咱们是专业产品分析,抛开推广营销因素,回到产品本身,在黄叔看来,纳米搜索不只是一个搜索引擎,而是首个实现“搜索-理解-创作”完整闭环的AI产品。无论是文字、图片、视频还是声音,都能被LLM理解并转化为新…- 5
- 0
-
一文了解:最新版本 Llama 3.2
Meta AI最近发布了 Llama 3.2。这是他们第一次推出可以同时处理文字和图片的多模态模型。这个版本主要关注两个方面:视觉功能:他们现在有了能处理图片的模型,参数量从11亿到90亿不等。轻量级模型:这些模型参数量在1亿到3亿之间,设计得小巧玲珑,可以在手机或者边缘设备上运行,不需要联网。接下来,我会详细聊聊这些新模型是怎么工作的,它们能做什么,还有怎么用它们。Llama 3.2的视觉模型L…- 7
- 0
-
深度解析Swarm Agent :OpenAI 开源的多智能体协作框架
想象一下,你正在构建一个复杂的 AI 系统,它需要多个智能体协同工作才能完成任务。例如,一个智能客服系统,需要多个 AI Agent 分别负责处理用户的不同需求,如订单查询、退货处理、投诉处理等。这些 Agent 如同球队中的不同球员,各司其职,又相互配合。如何高效地协调这些 Agent 的行为,使它们能够协同工作,如同 一支训练有素的 AI 梦之队, 共同完成任务呢?传统的编排方法通常…- 4
- 0
-
深入解析Llama 3:开发者如何充分利用这一开源大模型
今年在雨后春笋般的大模型迭代升级中,Llama 3如一颗冉冉升起的新星,照亮了开源大模型的天空。它不仅是Meta公司的最新力作,更是开源大型语言模型(LLM)领域的一次重要突破。Llama 3的问世标志着AI技术在理解和生成自然语言方面迈出了新的步伐,目前来说,它的能力和应用范围已经超越了以往任何一个开源模型。开源大模型在短短不到一年的时间就追平闭源大模型,是开源社区最令人振奋的事,让全球无数中小…- 4
- 0
-
AI数字人领域重大突破:告别拼凑式合成,阿里OmniTalker能否开启音视频一体化新时代?
我们第一次接触OmniTalker时,感受到一种兴奋它不像传统的文本到音频(Text-to-Speech, TTS)或图像合成那样,仅仅是“把文字变成声音”或“把人脸动起来”,而是要在同一框架下,把文本直接变成一段完整、可交互的口播视频。作为一个长期关注AI技术应用的媒体智库平台,我们非常清楚“文本驱动口播”的概念在学术界和工业界的吸引力。这不仅涉及语音合成和人脸动画,还关乎多模态的融合与一致性校…- 5
- 0
-
Midjourney V7全面测评:50组多风格提示词实测,是否还有领先优势?
原本说好2月底就上的Midjourney V7,今天终于来了!那年杏花微雨,一张《太空歌剧院》冲破云霄,带来的震撼与欣喜至今仍让人记忆犹新。两年半过去,生图类模型的皇冠被太多产品冲击,它依然以一种从容不迫姿态稳居第一梯队,但优势已不如从前明显。生图模型卷到现在,不论是国内还是国外产品都有太多优秀模型,用户的选择可以更加多元化,即使如此,我们依然期待Midjourney独特的审美、卓越的质感、和有更…- 3
- 0
-
如何结合多模态RAG和异步调用实现大模型内容理解?
一. 项目背景和方案架构1.1 项目背景理赔业务是物流行业经常需要处理的问题,客服需要审核客户上传的受损货物的图片资料,对受损情况做判定,然后给客户提供赔偿金额;整体的流程需要人工操作,效率很低,因此如何用大模型作为切入点为理赔业务提效成为重点关注问题。理赔工作存在一个风险点,客户如果上传虚假的理赔图片,会造成物流公司的业务损失,比如客户上传的图片是曾经上传过的货损图片,或者经过了小幅度的裁剪、旋…- 2
- 0
-
Chat GPT文生图不用DALL·E模型了?
昨晚,Open AI更新了ChatGPT文生图能力。准确来说,这次升级是一次小革命。以前,它借助DALL—E来生成图像,现在功能直接融入到ChatGPT里面了。新能力能让ChatGPT生成的图片更准确。什么叫准确?按照官方意思,能贴合你的要求。要让它生成一个戴眼镜的猫咪,它会先思考一下,然后画出来一个更详细的戴眼镜的猫咪。最后一项是修改图像。哪些细节不满意,直接告诉它就能修改。官方直播活动中,也演…- 2
- 0
❯
购物车
优惠劵
搜索
扫码打开当前页
联系我们
返回顶部
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!