全部标签

多模态技术

手把手教你实现自己的“Manus”：构建基于容器的多用户Agent应用【上】

Manus火了，万元的“邀请码”最后也引起口诛笔伐，不过这多少也说明了大家对AGI的向往与期待。所谓外行看热闹，内行看门道，Manus本质上是一个运行在云端支持多用户使用的Agent as a Service应用，与Deepseek不一样的是，其技术复杂性更多体现在工程上而非底层算法。本文将尝试构建一个基于容器（沙盒）隔离的多用户Agent系统的后台原型，以帮助理解相关的原理。内容目录：Manus…
前沿技术
- 4
- 0
charles25年5月15日
Gemma 3 发布：单卡AI性能突破，128K上下文与多模态技术解析

Gemma 3 横空发布，单卡AI性能显著提升！ 128K超长上下文，多语言多模态进化，量化技术加持。Gemma 3 重新定义轻量级 AI 模型。Gemma 3：轻量级AI性能新高度Gemma 家族迎来一周年，Google DeepMind 发布 Gemma 3。 Gemma 3 源于 Gemini 2.0 技术，更先进、便携、负责任，旨在&n…
前沿技术
- 6
- 0
charles25年5月15日
多模态自动布局技术发展及其在淘内内容场的应用

作为一种新的商品表现形态，内容几乎存在于手淘用户动线全流程，例如信息流种草内容、搜索消费决策内容、详情页种草内容等。过去一年，我们通过在视频生成、图文联合生成等核心技术上的持续攻关，AIGC内容生成在手淘多个场景取得了规模化落地价值。本专题《淘宝的AIGC内容生成技术总结》是我们摸索出的一部分实践经验，我们将开启一段时间的内容AI专题连载，欢迎大家一起交流进步。背景随着数字化内容创作需求的迅速增长…
前沿技术
- 8
- 0
charles25年5月15日
DeepSeek 的联网搜索功能，竟出自这家初创公司！

2024 年 9 月 22 日，三位年少有为怀揣创业理想的有志青年，来到了特工宇宙杭州线下办公室，一起交流 AI 搜索的技术和未来。而在年后西班牙的世界移动通信大会上，特工宇宙得知，DeepSeek 的联网搜索，采用了他们的 API 服务，并在 DeepSeek 爆火之前就已经接入了。博查 AI，AGI 的世界搜索知识引擎。不管 AGI 哪一天到来，当人类和 AI 去对话完成任务，当 A…
前沿技术
- 8
- 0
charles25年5月15日
FastGPT 4.9.0 ：重塑知识库体验，多模态处理更强大

告别 PDF 解析烦恼，迎接知识无缝转化您是否也有这些困扰？• PDF文档结构复杂，解析后格式混乱• 扫描件内容无法被正确识别• 图表变形或消失• 公式转换成乱码图片？消失了！重要的图表和示意图全都"蒸发"，只剩下占位符表格？不存在的！你期待的是数据分析，得到的却是一团乱码➗ LaTeX公式？变成天书！精心编写的数学公式变成了一串无法辨认的符号密密麻麻的文字墙...没有结构、没…
前沿技术
- 16
- 0
charles25年5月15日
Manus工作原理揭秘：解构下一代AI Agent的多智能体架构

AI Agent 产品 Manus 横空出世，瞬间点燃了科技圈的热情。邀请码在二手交易平台上的价格被炒至 999 元到 5 万元不等，足见人们对这款下一代 AI 交互方式的期待。Manus 不仅仅是一个智能助手，更是一个能够自主思考并交付结果的通用 AI 智能体。它的口号 “Leave it to Manus” 背后，是 Multi-Agent 系统的一次华…
前沿技术
- 11
- 0
charles25年5月15日
从模糊到清晰，Agentic设计原则重塑AI Agent未来

构建 Agentic 系统有多种方法。由于生成式 AI 设计中模糊性是一种特性而非缺陷，工程师有时很难确定从何处开始着手。创建了一套以人类为中心的用户体验设计原则，以帮助开发人员构建以客户为中心的 Agent，解决他们的业务需求。这些设计原则并非一种规定性的架构，而是为定义和构建Agent体验的团队提供一个起点。一般来说，Agent 应做到：扩展并提升人类的能力（如头脑风暴、解…
前沿技术
- 9
- 0
charles25年5月15日
一键部署！阶跃星辰开源多模态模型上线火山引擎

2025年2月18日，阶跃星辰宣布开源了两款 Step 系列多模态模型——Step-Video-T2V 视频生成模型和 Step-Audio 语音交互模型。目前，用户可登录火山引擎机器学习平台快速体验。> 火山引擎机器学习平台简介火山引擎机器学习平台 veMLP 是面向机器学习应用开发者，提供【开发机】、【自定义任务】、【在线服务】等丰富建模工具、多框架高性能模型推理服务的企业级开发平台，支…
前沿技术
- 10
- 0
charles25年5月15日
DeepSeek热潮背后，企业如何用多模态数据构建核心竞争力

当全球目光聚焦DeepSeek刷新开源大模型性能榜单时，一个关键趋势正在浮现：当模型差距正在被迅速抹平，算力成本正在逐渐降低，数据的重要性反而愈发凸显。在这场变革中，那些掌握垂直行业多模态数据的企业，正在悄然构建起真正的护城河。多模态数据为何如此关键？随着移动互联网和物联网设备的飞速发展，多模态数据处理变得越来越普遍和丰富。多模态数据融合了文本、图像、语音、视频、互联网用户行为以及传感…
前沿技术
- 8
- 0
charles25年5月15日
MNN 手机本地部署 DeepSeek R1 和多模态大模型，告别服务器繁忙！

在Phi-3大模型发布之际，我们基于Termux应用，在我的小米手机部署了Phi-3模型：Termux应用是一个终端模拟器，它允许我们安装 Linux 操作系统，然后在 Linux 操作系统中安装 Ollama，最后基于 Ollama 下载和推理大模型，虽然方法可行，但是存在一些局限：操作步骤繁琐，用户体验较差：安装 Linux 操作系统、启动系统、安装和启动 Ollama 等操作，都需要通过命令…
前沿技术
- 10
- 0
charles25年5月15日
多模态RAG技术：从语义抽取到VLM应用与规模化挑战

导读本次分享聚焦于多模态 RAG 的实现路径与发展前景。核心议题涵盖五方面：1. 基于语义抽取的多模态 RAG2. 基于 VLM 的多模态 RAG3. 如何 Scale 基于 VLM 的多模态 RAG4. 技术路线的选择5. 问答环节分享嘉宾｜金海 Infiniflow 联合创始人编辑整理｜王红雨内容校对｜李瑶出品社区｜DataFun0…
前沿技术
- 12
- 0
charles25年5月15日
考拉悠然：智能化管理，为AI产业化落地打造数字新基座

“在人工智能行业的激烈竞争中，考拉悠然曾因预算管理缺乏规范而面临资源浪费与决策困境。引入钉钉低代码工具后，我们成功构建了一套科学高效的预算成本管理体系。从预算编制到审批执行，全流程实现自动化与标准化，大幅提升了工作效率与准确性。实时监控功能让预算执行透明化，及时预警超支风险，同时通过对历史数据的深度分析，为后续预算编制提供了可靠依据。得益于钉钉低代码工具的支持，我们的财务管理水平显著提升，部门协作…
前沿技术
- 2
- 0
charles25年5月15日
基于LLM打造沉浸式3D世界

背景介绍大型语言模型（Large Language Models, LLMs）的出现标志着自然语言处理领域的一个变革时代，使机器能够以前所未有的方式理解、生成和互动人类语言。然而，物理世界本质上是三维的，理解空间3D环境对于涉及感知、导航和互动的许多现实应用至关重要。将LLMs与3D数据融合，提供了一个独特的机会，可以增强计算模型对物理世界的理解和互动，从而在多个领域引领创新，包括自主系统、增强现…
前沿技术
- 5
- 0
charles25年5月15日
使用Dify为DeepSeek-R1添加多模态功能

在DeepSeek-R1引发全球AI领域关注之际，其突破性的推理能力已通过多项测试得到验证：模型不仅将AIME数学竞赛准确率从15.6%提升至86.7%，更在Codeforces编程竞赛中超越96.3%人类参与者，展现出真实的数学直觉与迁移学习能力。然而作为纯文本模型，其官方版本存在多模态能力缺失与功能互斥的局限。我选择通过Dify构建智能编排层：以DeepSeek-R1作为推理引擎，驱动更强大模…
前沿技术
- 2
- 0
charles25年5月15日
从0到1：用飞书多维表格与AI轻松构建个性化应用产品【实操指南】

想踏入AI应用开发却不知从何做起？飞书多维表格提供了一个理想的起点。在这篇文章中，我将一步步带你领略这款工具的强大功能，结合先进的AI技术（如图像识别），帮助你快速创建出符合个人需求的小型应用程序。无论是记录生活点滴、管理收藏还是实现其他创意想法，只需几个简单步骤，就能见证一个实用而有趣的个性化应用产品从构思变为现实。现在就开始动手吧，体验从无到有的创新乐趣！以搭建一个「私人酒水博物馆」举例，完成…
前沿技术
- 5
- 0
charles25年5月14日
kimi1.5技术报告解读，你想了解的都在这里

Kimi K1.5 作为一款前沿的多模态大语言模型，凭借其独特的强化学习训练方式和创新技术，展现出卓越的性能，在多个领域取得了显著成果，为人工智能的发展开辟了新路径。今天我们一起了解一下kimi1.5。一、研究背景与创新点传统的基于下一个标记预测的语言模型预训练，虽在计算规模扩展上有一定成效，但受限于可用训练数据的数量。随着数据增长的瓶颈逐渐显现，探索新的扩展维度成为提升人工智能性能的关键。强化学…
前沿技术
- 9
- 0
charles25年5月14日
DeepSeek 图片处理新玩法，屌爆了！

最近，大宁哥深切感受到大家对 DeepSeek 处理图片的期待，呼声那叫一个高。不过得先和大家说明白，DeepSeek R1 并非多模态大模型，原生对图片的支持确实有限，不像豆包、ChatGPT 那样能直接生成精美图片。但千万别灰心，只要掌握方法，咱们照样能让 DeepSeek 在图片处理上 “玩出花”。01 文字生成图片两步轻松搞定文字生成图片基本就两步：1️⃣ 先提需求让 …
前沿技术
- 4
- 0
charles25年5月14日
Deepseek出图，真快！

今天跟大家聊聊deepseek+即梦AI，如何出好看的图片。我最近一直在用即梦 AI，它同时拥有网页版和手机版，特别方便。而且，新用户还能获得赠送的免费额度，无论是制作图片还是视频，用来随便体验一下绝对是够的。即梦 AI 有一个超棒的功能，就是在展示的图片上，都能清晰看到对应的提示词。这意味着我们拥有了海量的提示词参考资源，对于刚接触 AI 绘图的新手来说，大大降低了入门门槛。乍一看，设计一张图的…
前沿技术
- 5
- 0
charles25年5月14日
吴恩达押注Agent新成果官宣！零样本标记实现图片目标检测

刚刚，AI大牛吴恩达官宣创业公司新成果——Agentic Object Detection（Agent目标检测）。无需标注训练数据，模型仅通过推理就能在图片中定位指定物体。举个栗子，在一张长满草莓的图片中，提示词为“未成熟的草莓”，AI模型立马分分钟帮你找出。据吴恩达介绍，以前视觉AI要想识别物体，需要在大量标注数据上训练，而现在AI只需瞥一眼图片，短暂思考后（当前约20~30s）就能立刻输出正确…
前沿技术
- 8
- 0
charles25年5月14日
利用 Gemini 2.0 多模态实时 API 构建实时屏幕共享助手

Gemini 开发教程 V3在 Gemini 2.0 系列的最后几期教程中，我们建立了一个自托管的实时语音和视频聊天机器人的核心功能，并为其添加了功能调用特性，以便它能够调用外部工具和 API。这些都是具有快速响应、人性化互动和增强推理能力的实用应用，得益于 Gemini 2.0 多模态实时 API。在本教程中，我们将重点关注模型的另一个实用应用，您可能已经在 Google AI Studio 中…
前沿技术
- 5
- 0
charles25年5月14日
斯坦福多模态交互 Agent 综述：Agent AI 集成及其技术挑战

这篇论文深入探讨了多模态人工智能系统，尤其是智能体（Agent）在物理和虚拟环境中的交互性。它不仅为研究人员和AI领域提供了一份研究路线图，更展现了AI未来发展的深刻洞见。论文的核心内容分为以下几个部分：一、Agent AI 的概念介绍了Agent AI的背景、动机及未来目标，探讨了其如何成为实现通用人工智能（AGI）的重要途径。二、Agent AI 面临的挑战讨论了Agent AI与现有的大型基…
前沿技术
- 10
- 0
charles25年5月14日
谷歌发布Gemini 2.0 Pro：多模态，编程能力炸裂，Jeff Dean惊呼，现在免费开放

刚刚谷歌 DeepMind 宣布，Gemini 2.0 现已向所有人开放！本次发布带来了一系列更新和新模型，旨在为开发者和用户提供更强大、更快速、更具成本效益的 AI 体验，重点是推出了Gemini 2.0 Pro全新模型AI大神Jeff Dean 盛赞 Gemini 2.0 Pro 的编程能力谷歌首席科学家，人工智能大神 Jeff Dean 分享了他对 Gemini 2.0 Pro …
前沿技术
- 9
- 0
charles25年5月14日
大模型内容风控–跨模态通用视觉内容安全审核技术

导读在当前的人工智能领域，多模态学习正快速发展，并在诸多实际应用中展现出巨大的潜力，特别是在安全内容审核、智能客服和自动驾驶等领域。为了提升多模态模型的性能和效率，大规模预训练优化成为了不可或缺的关键环节。训练优化不仅包括数据集的构建与标注，还涉及模型参数微调、超参数优化和训练迭代等复杂过程。通过多样化业务数据的构建和自动化标注系统的引入，模型的训练过程得以高效推进。此外，随着大规模预…
前沿技术
- 12
- 0
charles25年5月14日
继Operator 之后，Perplexity 推出多模态助手！

继OpenAI 发布Operator 之后，Perplexity 宣布推出多模态助手，瞄准更智能的人机交互时代！这个全新的AI助手不是传统的「问答机器」，而是一个能实际帮你完成任务的智能助理。多模态能力：从看到做最令人兴奋的是它的多模态能力。你可以让它直接启动相机，询问眼前看到的任何东西。这种能力让AI助手第一次真正「睁开眼睛」，不再局限于文字世界。实际行动：不止于对话更厉害的是它能连接现实世界的…
前沿技术
- 8
- 0
charles25年5月14日