全部标签

多模态技术

ChatGPT记忆功能全解析：实用场景与操作指南

ChatGPT记忆功能全解析：实用场景与操作指南写在前面2024年4月26日，打开ChatGPT收到官方的更新公告：Memory功能上线，可以优先体验。官方FAQ链接https://help.openai.com/en/articles/8590148-memory-faq本来没有计划写的，了解一下之后还是给大家介绍一下。By DALL·E （现在图中的文字都是正常拼写）过去ChatGP…
前沿技术
- 280
- 0
charles25年5月19日
Flowise AI 工作流进阶: 常用组件介绍+连 Notion 做知识库

上篇文章5个开源AI工作流项目,图形化界面拖拉拽自定义 Agent提到 linkai,细看了下,被linkai价格劝退, 他家开源版本只是一个接入 wechat 的小项目, 需要调 link ai 的 api , 意思是需要你在这个平台上配置 agent, 这个平台是不开源的, 所以还是看 Flowise花了一周多时间部署测试了 Flowise,下面是一些测试的笔记,可能没有写得很细, 想要详细教…
前沿技术
- 15
- 0
charles25年5月19日
面壁小钢炮 MiniCPM-V 2.6 部署指南

再次刷新端侧多模态天花板，面壁「小钢炮」 MiniCPM-V 2.6 模型重磅上新！发布即支持 llama.cpp、ollama、vllm 推理！仅 8B 参数，取得 20B 以下单图、多图、视频理解 3 SOTA 成绩，一举将端侧AI多模态能力拉升至全面对标 GPT-4V 水平。更有多项功能首次上「端」：小钢炮一口气将实时视频理解、多图联合理解、…
前沿技术
- 11
- 0
charles25年5月19日
Qwen2-VL 全链路模型体验、下载、推理、微调实战！

01引言经过了一年的不懈努力，今天通义千问团队对 Qwen-VL 模型进行重大更新——推出 Qwen2-VL。Qwen2-VL 有什么新功能？· 增强的图像理解能力：Qwen2-VL显著提高了模型理解和解释视觉信息的能力，为关键性能指标设定了新的基准· 高级视频理解能力：Qwen2-VL具有卓越的在线流媒体功能，能够以很高的精度实时分析动态视频内容· 集成的可视化agent功能…
前沿技术
- 8
- 0
charles25年5月19日
智谱开源新一代多模态大模型CogVLM2，性能媲美GPT-4V

前言多模态大模型（MLLM）是近年来人工智能领域最热门的研究方向之一，其能够融合图像、文本等多种模态信息，实现更强大、更灵活的应用。然而，现有的主流多模态模型多以英文为训练语言，在中文理解方面存在着明显的短板。为了突破这一局限，智谱 AI 团队推出了新一代中文多模态大模型 CogVLM2，并将其开源，为中文多模态领域的发展贡献力量。技术特点CogVLM2 继承并优化了上一代模型的经典架构，采用了一…
前沿技术
- 12
- 0
charles25年5月19日
周鸿祎发布纳米搜索，做世界第一的AI搜索

周鸿祎用短剧+直播结合的方式发布了新产品：纳米搜索，并且喊出口号：做世界第一的AI搜索！　　为何能做到？上图写了三个要点：易用、360有桌面、浏览器、搜索三大入口优势，还有周鸿祎自己的IP加持。　　咱们是专业产品分析，抛开推广营销因素，回到产品本身，在黄叔看来，纳米搜索不只是一个搜索引擎，而是首个实现“搜索-理解-创作”完整闭环的AI产品。无论是文字、图片、视频还是声音，都能被LLM理解并转化为新…
前沿技术
- 10
- 0
charles25年5月19日
一文了解：最新版本 Llama 3.2

Meta AI最近发布了 Llama 3.2。这是他们第一次推出可以同时处理文字和图片的多模态模型。这个版本主要关注两个方面：视觉功能：他们现在有了能处理图片的模型，参数量从11亿到90亿不等。轻量级模型：这些模型参数量在1亿到3亿之间，设计得小巧玲珑，可以在手机或者边缘设备上运行，不需要联网。接下来，我会详细聊聊这些新模型是怎么工作的，它们能做什么，还有怎么用它们。Llama 3.2的视觉模型L…
前沿技术
- 9
- 0
charles25年5月19日
深度解析Swarm Agent ：OpenAI 开源的多智能体协作框架

想象一下，你正在构建一个复杂的 AI 系统，它需要多个智能体协同工作才能完成任务。例如，一个智能客服系统，需要多个 AI Agent 分别负责处理用户的不同需求，如订单查询、退货处理、投诉处理等。这些 Agent 如同球队中的不同球员，各司其职，又相互配合。如何高效地协调这些 Agent 的行为，使它们能够协同工作，如同一支训练有素的 AI 梦之队，共同完成任务呢？传统的编排方法通常…
前沿技术
- 8
- 0
charles25年5月19日
深入解析Llama 3：开发者如何充分利用这一开源大模型

今年在雨后春笋般的大模型迭代升级中，Llama 3如一颗冉冉升起的新星，照亮了开源大模型的天空。它不仅是Meta公司的最新力作，更是开源大型语言模型（LLM）领域的一次重要突破。Llama 3的问世标志着AI技术在理解和生成自然语言方面迈出了新的步伐，目前来说，它的能力和应用范围已经超越了以往任何一个开源模型。开源大模型在短短不到一年的时间就追平闭源大模型，是开源社区最令人振奋的事，让全球无数中小…
前沿技术
- 10
- 0
charles25年5月19日
AI数字人领域重大突破：告别拼凑式合成，阿里OmniTalker能否开启音视频一体化新时代？

我们第一次接触OmniTalker时，感受到一种兴奋它不像传统的文本到音频（Text-to-Speech, TTS）或图像合成那样，仅仅是“把文字变成声音”或“把人脸动起来”，而是要在同一框架下，把文本直接变成一段完整、可交互的口播视频。作为一个长期关注AI技术应用的媒体智库平台，我们非常清楚“文本驱动口播”的概念在学术界和工业界的吸引力。这不仅涉及语音合成和人脸动画，还关乎多模态的融合与一致性校…
前沿技术
- 12
- 0
charles25年5月19日
Midjourney V7全面测评：50组多风格提示词实测，是否还有领先优势?

原本说好2月底就上的Midjourney V7，今天终于来了！那年杏花微雨，一张《太空歌剧院》冲破云霄，带来的震撼与欣喜至今仍让人记忆犹新。两年半过去，生图类模型的皇冠被太多产品冲击，它依然以一种从容不迫姿态稳居第一梯队，但优势已不如从前明显。生图模型卷到现在，不论是国内还是国外产品都有太多优秀模型，用户的选择可以更加多元化，即使如此，我们依然期待Midjourney独特的审美、卓越的质感、和有更…
前沿技术
- 8
- 0
charles25年5月19日
如何结合多模态RAG和异步调用实现大模型内容理解？

一. 项目背景和方案架构1.1 项目背景理赔业务是物流行业经常需要处理的问题，客服需要审核客户上传的受损货物的图片资料，对受损情况做判定，然后给客户提供赔偿金额；整体的流程需要人工操作，效率很低，因此如何用大模型作为切入点为理赔业务提效成为重点关注问题。理赔工作存在一个风险点，客户如果上传虚假的理赔图片，会造成物流公司的业务损失，比如客户上传的图片是曾经上传过的货损图片，或者经过了小幅度的裁剪、旋…
前沿技术
- 7
- 0
charles25年5月19日
Chat GPT文生图不用DALL·E模型了？

昨晚，Open AI更新了ChatGPT文生图能力。准确来说，这次升级是一次小革命。以前，它借助DALL—E来生成图像，现在功能直接融入到ChatGPT里面了。新能力能让ChatGPT生成的图片更准确。什么叫准确？按照官方意思，能贴合你的要求。要让它生成一个戴眼镜的猫咪，它会先思考一下，然后画出来一个更详细的戴眼镜的猫咪。最后一项是修改图像。哪些细节不满意，直接告诉它就能修改。官方直播活动中，也演…
前沿技术
- 6
- 0
charles25年5月19日
如何构建多模态AI知识库？

摘要：在科技飞速发展的当下，人工智能（AI）已成为推动各行业变革的关键力量。其中，多模态 AI 知识库作为 AI 领域的重要创新，正引领我们迈向一个全新的智能时代。它打破了传统数据处理的单一模式，融合文本、图像、音频、视频等多种数据模态，为我们提供了更加全面、深入的知识理解与应用能力。从日常生活中的智能语音助手，到医疗领域的精准诊断，再到自动驾驶汽车的安全行驶，多模态 AI 知识库的身影无处不在。…
前沿技术
- 4
- 0
charles25年5月19日
我为什么要卸载DeepSeek ？

就在刚刚，我卸载了今年以来最火的现象级AI产品——DeepSeek。因为我找到了一款比它更好用的替代品！不知道大家这近期有没有留意：微信服务菜单下的生活服务栏目，新增了一个“元宝下载（满血DeepSeek）”图标，我也是今天才发现的，然后就去下载体验了。体验后，我做的第一件事就是把我之前下载的DeepSeek卸载了。因为这次腾讯元宝和DeepSeek的强强联合实在是太炸裂了，这种双模型的聚合不仅为…
前沿技术
- 13
- 0
charles25年5月18日
千问又放大招！720亿参数的视觉语言模型什么样？

Qwen2-VL-72B-Instruct现已加入 Serverless API，访问 Gitee AI 即可免费在线体验：https://ai.gitee.com/serverless-api?model=Qwen2-VL-72B作为多模态技术的核心，视觉语言模型（Vision-Language Model, VLM）正在彻底改变我们与图像、视频和语言互动的方式。今天，马建仓将带开发者们搞懂视觉…
前沿技术
- 8
- 0
charles25年5月18日
Adobe首发多Agent、跨模态框架MDocAgent：复杂文档理解性能爆炸12%，错误率直降21%

文档问答太难了含有丰富文本和视觉元素（如图表、图像等）的长文档，在进行文档问答时，现有的方案有其局限性：传统的大型语言模型（LLMs）仅能处理文本信息大型视觉语言模型（LVLMs）虽然能够处理视觉内容，但在处理长文档时往往效率低下，并且难以对文本和视觉信息进行有效的融合与推理。现有的检索增强生成（RAG）方法虽然能够从长文档中提取关键信息，但它们通常仅依赖于单一模态（文本或图像）进行检…
前沿技术
- 7
- 0
charles25年5月18日
多模态文档检索开源方案-三大竞赛获奖方案技术链路

前期也提到，在实际场景中，用户通常需要检索多模态文档，包括文本、图像、表格和图表。这需要一个更复杂的检索系统，能够处理多模态信息，并根据用户查询提供相关文档或段落。检索多模态文档将有助于 AI 聊天机器人、搜索引擎和其他应用程序向用户提供更准确、更相关的信息。因此衍生了一系列的多模态RAG方案，如：开源多模态RAG的视觉文档(OCR-Free)检索增强生成方案-VDocRAG、多模态GraphRA…
前沿技术
- 8
- 0
charles25年5月18日
多模态 GraphRAG 初探：文档智能+知识图谱+大模型结合范式

导读本次分享聚焦多模态 GraphRAG，深度剖析了文档智能解析的技术链路，并梳理了相关工作进展，全方位呈现了文档智能、知识图谱与大模型结合的应用范式。文章主要包括以下几大部分：1. 文档智能解析技术链路与文档层级关系构建2. 多模态图索引构建与多模态检索生成流程3. 知识图谱解决 chunk 之间关联以及细粒度问题4. 文档多模态 RAG 相关…
前沿技术
- 14
- 0
charles25年5月18日
推翻传统RAG，腾讯用生成式检索打开多模态新局面

这篇论文其实在一开始就很有意思，它针对的是一个挺棘手的问题：在多模态应用里，比如VQA（视觉问答）、多模态对话这种，光靠图片和文本本身的信息往往是不够的，必须去查外部知识库。传统做法就是靠各种retriever，一个专门查文本的，一个专门查图片的，有的还搞个实体检索器，弄得流程又长又麻烦。而且，各种retriever要单独训练，超级吃数据，成本也高。然后，作者就问了个很实在…
前沿技术
- 7
- 0
charles25年5月18日
用AI大模型把手写笔记转换为LaTeX PDF文档

弄一个Prompt，可以帮助大模型更好地把手稿转换为LaTeX文档。效果大概这样：完整Prompt比较长，放到文章最后了。需要指出的是，截至2025年4月，并没有专门针对“手稿笔记→LaTeX文档”任务而训练的大模型。因为这个任务本质上考验的就是大模型的多模态能力，更确切的说是图像解析能力；而解析后，LaTeX指令和结构化语言的生成，对大模型来说，反而不是问题，因为LLM最擅长的就是代码生成，La…
前沿技术
- 10
- 0
charles25年5月18日
Qwen能吞下整本扫描版PDF，直接转Word了，这波操作太赞了！

经常收到读者后台留言，问如何处理扫描版PDF，怎么把里面的字准确批量提取出来，然后保存为txt，word啥的。今天这篇文章我来探索一种较好的解决方案，提供完整智能体源码，详细操作步骤，确保大家可以复现，感兴趣的可以看看。1 展示效果从我电脑上找了一本《天池比赛》扫描版PDF，扫描版意思就是全是图片，并且图片清晰度不怎地，如下图所示全书365页：某页截图：下面是使用本文介绍的方法，批量…
前沿技术
- 4
- 0
charles25年5月18日
3D 小白亲测：用 Trae + Blender MCP 从零开始 AI 建模（附踩坑指南）

正好，前几天刷到Trae新版本发布的消息，让我眼前一亮——这次更新直接放了大招，重磅推出了智能体和MCP功能！简单来说，这次更新的主要功能就是：支持通过提示词和工具自定义专属智能体集成了MCP市场，可以一键接入第三方MCP Servers让智能体灵活调用MCP工具来扩展能力这让我突然想起前阵子在推特上看到一位大佬的骚操作：他用Claude+Blender MCP实现了全自动3D建模，效果简直惊艳！…
前沿技术
- 7
- 0
charles25年5月18日
行业落地分享：作业帮问答检索系统实践

在数字化浪潮的推动下，检索系统的性能与效率成为企业发展的关键。作业帮作为教育科技领域的领军者，始终致力于为用户提供更高效、更精准的学习资源检索体验。Havenask 是阿里巴巴集团自研的高性能、分布式检索引擎，自 2022 年 7 月开源以来，凭借其强大的性能和灵活的定制能力，迅速在行业内崭露头角。unsetunset业务需求问题unsetunset通过自动化的图像处理和相似题目检索，系统能够提供…
前沿技术
- 8
- 0
charles25年5月18日