全部标签

多模态技术

多模态技术，释放垂直AI软件潜力的关键

不久前，Bessemer提出了一个很有价值的观点：垂直AI软件将成为未来。说起Bessemer，熟悉SaaS行业的人可能并不陌生。它是美国SaaS领域最专业的投资机构之一，在过去10年投资了200多家SaaS企业。为了更好讲清楚垂直AI软件的价值，Bessemer发布了垂直AI路线图，总共四个部分。本文是Bessemer的垂直AI路线图的第二篇文章。在这篇文章中，Bessemer会分享其对以下问题…
前沿技术
- 7
- 0
charles25年5月11日
重磅！ChatGPT实时语音终于要来了！附详细使用说明

对于AI领域的领头羊OpenAI，你在期待什么？GPT-5还是文生视频模型Sora？或者是ChatGPT实时语音功能！对于ChatGPT实时语音功能，我们等了太久。而今天，它终于要来了！就在刚刚，OpenAI通过社交媒体官宣，实时语音功能（OpenAI官方命名为：Advanced Voice Mode）将在本周内向所有ChatGPT Plus和Team会员用户推送。同时，OpenAI还为实时语音功…
前沿技术
- 4
- 0
charles25年5月11日
NotebookLM +PodLM + F5：AI播客系列，个性化中英文播客（本地安装、Colab部署）

? Insight Daily ? Aitrainee | 公众号：AI进修生 Hi，这里是Aitrainee，欢迎阅读本期新文章。前段时间，NotebookLM 凭借其‘AI 播客’功能出圈了。它能将复杂材料转化为更接地气的语音访谈形式。虽然我们通常选择直接查看内容，但长时间使用同一种方式总会感到疲惫。此时，躺在床上或椅子上，把原材料丢进去，让 AI 生成一男一女的对话播客，确实让信息吸收变得…
前沿技术
- 6
- 0
charles25年5月11日
通过 Swarm 构建模块化、可扩展的多代理应用程序

OpenAI 近期推出了 Swarm 框架，这是 OpenAI 首次开源的项目。Swarm 是一个无状态、轻量级多代理框架，利用 “协程” 和 “交接” 的概念来协调多个 AI 代理。这将复杂的任务分解成更小的、更易管理的单元，从而简化了任务，而且人工智能代理可以在任何时候选择将对话交接给另一个代理。与单个代理中管理大量提示和不同逻辑相比，Swarm是一种稳健且可扩展的方法。示例库提供了可以轻松…
前沿技术
- 8
- 0
charles25年5月11日
UniIR：通用多模态信息检索模型训练和评测标准

现有的信息检索（IR）模型通常假设一个同质化的格式，限制了它们对多样化用户需求的适用性，例如用文本描述搜索图像，用新闻标题图片搜索新闻文章，或用查询图像找到类似的图片。为了满足这些不同的信息检索需求，我们引入了UniIR，这是一个统一的、由指令引导的多模态检索器，能够处理跨模态的八种不同的检索任务。UniIR是一个单一的检索系统，联合训练了十个不同的多模态IR数据集，解释用户指令以执行各种检索任务…
前沿技术
- 8
- 0
charles25年5月11日
探索 Phi-3-Vision-128K：引领未来的 AI 文档处理与 OCR 技术

在人工智能领域飞速发展的今天，多模态模型正逐渐成为整合视觉与文本数据的新标准。Phi-3-Vision-128K-Instruct 是这一趋势中的最新突破，作为目前最先进的多模态模型，它大大提升了人工智能在处理图像与文本方面的能力。该模型特别擅长文档提取、光学字符识别（OCR）和通用图像理解，彻底改变了我们解析 PDF、图表、表格等结构化或半结构化信息的方式。本文将深入探讨 Phi-3-Visio…
前沿技术
- 5
- 0
charles25年5月10日
多模态大模型有哪些落地场景？贝壳、海尔等4家头部企业实践

大模型正在从单一模态向多模态发展，多模态成为大模型落地发展的必经之路。一方面多模态数据无处不在且加速增长，未来用于大模型训练的数据中多模态数据占比将越来越大；另一方面，文本大模型只能理解文本意思并进行文本类的表达，但人类并不是从单模态中进行学习的，恰恰相反，我们会同时结合来自不同类型数据的信息来理解这个世界。越来越多的基础大模型正在遵循人类学习的路径，基于多种模态数据进行训练，这些额外的模态将有助…
前沿技术
- 8
- 0
charles25年5月10日
Agent S通过对话让Agent控制电脑, 该类应用目前成功率还不到30%

RAG研究告一段落, 最近这4天Agent S这个开源项目出来了, 就深入研究一下Agent S论文。2024年年初就觉得这类项目因为难度,复杂度高, 距离实际应用还有些距离, 就研究了一些就搁置。半年后再看, 进步也不太大, 也就从11分到28分这种进步。不管怎样, 还是做一下阶段性记录, 介绍Agent S机制和这类Agent的评估基准OSWorld Benchmark像Agent S这类多模…
前沿技术
- 11
- 0
charles25年5月10日
实时语音交互的游戏队友——网易伏羲 AI Agent 创新应用

导读在 PVP 多人对战类的游戏中，社恐玩家的社交和情绪价值、对战局的操控感，无法得到有效满足。因此，网易伏羲助力《永劫无间》手游率先发布了全球首创的游戏 Copilot-多模态实时交互的语音 AI 队友。它可以在战斗中自主跑图、战斗、听指令、报战况，还会和玩家进行自由对话，给玩家带来极高的情绪价值。本文将重点讲解语音 AI 队友的设计和实现，及其背后的 AOP（Agent-Orien…
前沿技术
- 6
- 0
charles25年5月10日
OpenAI Swarm：探索多智能体（Agent）系统的新框架

在人工智能领域，OpenAI一直以其前沿的研究和创新产品引领行业发展。最近，OpenAI推出了一款名为Swarm的轻量级实验性框架，旨在支持多智能体（Agent）系统的开发。这一举措虽然出乎不少人的意料，但在OpenAI的GitHub（https://github.com/openai/swarm）页面上，他们明确指出Swarm目前还处于实验性和教育性阶段。一、Swarm 框架概述（一）Swarm…
前沿技术
- 8
- 0
charles25年5月10日
NotebookLM爆火背后：AI原生产品的核心洞察与创新

Perplexity、Cursor爆火之后，NotebookLM成为又一款备受欢迎的AI原生产品。NotebookLM是Google实验室（Google Labs）在2023年5月推出的一款原生AI笔记管理工具，能帮助用户高效地组织和提取信息，其前身是Google的Project Tailwind。受益于有趣的产品设计与Google的多模态模型Gemini 1.5 Pro，在Notebo…
前沿技术
- 12
- 0
charles25年5月10日
ElevenLabs打造AI版费尔南多·阿隆索，开启虚拟人互动新纪元

在虚拟人技术领域，ElevenLabs与DeepReel合作，创造了F1赛车手费尔南多·阿隆索的AI版本——"Ai.lonso"。这一虚拟人不仅能以多种语言朗读文章，还能与粉丝进行互动。这种技术的应用，为体育明星与全球粉丝的互动开辟了新途径。ElevenLabs 是一家专注于人工智能语音技术的公司，成立于2022年，由前谷歌机器学习工程师Piotr Dabkowski和前Pal…
前沿技术
- 19
- 0
charles25年5月10日
Agent S-比肩普通人一样的电脑Agent如约而来，引领“电脑交互”新纪元。

“ 多模态大型语言模型（MLLM）已经取得了突破性进展，如GPT-4o和Claude3.5，这一切为开发用于桌面操作系统等以人为本的交互系统的GUI代理奠定了一个坚实的基础。对于计算机Agent而言，这意味着它需要能够完成理解当前屏幕，然后点击、打字和打开应用程序等任务，这可能有助于用户实现特定的目标。自主图形用户界面（GUI）代理有望以最通用的方式解决非常具体和高度多样化的用户查询任务…
前沿技术
- 9
- 0
charles25年5月10日
可以在浏览器中本地运行Whisper了！

开发者Matt Palmer最近分享了一个演示：在浏览器中直接运行Whisper模型，无需任何API调用。浏览器中的AI魔法在Matt分享的视频中，我们可以看到Whisper模型在浏览器环境下流畅运行，实时将语音转换为文字。这种本地化的AI处理方式不仅提高了响应速度，还避免了数据传输过程中可能存在的隐私风险。技术背后的英雄Matt特别感谢了@xenovacom和@huggingface提供的tra…
前沿技术
- 5
- 0
charles25年5月10日
Phi-3-Vision-128K大模型，AI助力OCR，文档处理更上一层楼

Phi-3-Vision-128K-Instruct 模型，高效助力多模态数据处理与OCR识别。长按关注《AI科技论谈》 1 Phi-3-Vision-128K-Instruct 简介 Phi-3-Vision-128K-Instruct 属于 Phi-3 模型家族，专为多模态数据处理而构建，支持长达 128,000 个令牌的上下文长度。该模型融合了文本和视觉数据，非常适合需要同时解释文本和图像…
前沿技术
- 3
- 0
charles25年5月10日
PyMuPDF4LLM：多模态PDF 解析神器！

从现在起，PDF 不再是你 AI 应用的拦路虎！PyMuPDF4LLM，这个新鲜出炉的开源库，正改变着 PDF 处理的游戏规则。它不仅能轻松提取文本和图像，还能为 LLM 和 RAG 应用提供结构化的数据，让你的 AI 项目如虎添翼。文本提取：从混沌到有序PyMuPDF4LLM 的 to_markdown() 函数就像一把锋利的手术刀，能够精准地从 PDF 中剖析出文本内容。#### P…
前沿技术
- 10
- 0
charles25年5月10日
一文彻底搞懂多模态 – 多模态检索

多模态检索多模态检索是指利用多种数据模态（如文本、图像、视频、音频等）进行信息检索的技术。它旨在通过整合不同形式的数据，提供更全面、精确和丰富的检索结果，以满足用户多样化的查询需求。接下来分三部分：单模态检索、多模态检索、跨模态检索，一起来深入了解多模态应用：多模态检索。多模态检索一、单模态检索什么是单模态检索（Single-Modal Retrieval）？单模态检索是指仅涉及单一数据模态（如文…
前沿技术
- 12
- 0
charles25年5月10日
GPT4o Realtime voice功能的复现路径

先说结论，其实LLaMA-omni做的就挺好的，思路基本对，所以我今天也围绕着它讲在O1出来之前，其实多模态是上个世代比较火的技术类型，而大模型的趋势也从O1以后就分开来了一个是感知能力的提升，主要是GPT4-o这种的，多模态，单一模型的能力一个是O1这种self-play，自己玩自己（类自博弈）主要解决的是智力和解决问题能力的提升我之前讲过草莓，后面会随着我深度学习的课程继续讲的更细，因为GPT…
前沿技术
- 15
- 0
charles25年5月10日
Memfree：一个混合 AI 搜索引擎，输入输出支持多模态内容（知识库+联网混合Rerank）

一个不错的AI搜索引擎，你可以通过文本、图像、文件和网页进行搜索和提问，他会输出文本、思维导图、图像和视频的搜索结果，比较和总结多个图像，以及总结网页和 PDF 内容并提问。智能查询处理：MemFree 将自动决定是否根据搜索查询搜索互联网。如果问题简单，人工智能会直接给您答案。全面的信息收集：如果问题需要更多信息，MemFree 将在互联网和您的知识库中搜索以获取信息。基于相关性的排名：MemF…
前沿技术
- 5
- 0
charles25年5月10日
一文彻底搞懂多模态 – 多模态推理

多模态推理多模态推理涉及至少两种不同的感知模态，最常见的是视觉和语言。这两种模态的信息可以是图片和文本、视频和语音等。多模态推理的目标是从不同模态的信息中获取更全面、更准确的理解和知识，以支持各种任务，包括视觉问答、视觉常识推理、视觉语言导航等。接下来分两部分：知识图谱推理、多模态推理任务，一起来深入了解多模态应用：多模态推理。多模态推理一、知识图谱推理什么是知识图谱（Knowledge Grap…
前沿技术
- 4
- 0
charles25年5月10日
基于Qwen2多模态大模型构建的开源OCR项目

GOT-OCR2.0 是一个基于 QWen2 0.5B 模型的开源项目，项目核心是开发了一个统一的端到端模型，旨在推动 OCR 技术进入2.0时代。获取 GOT-OCR2.0 在线体验地址、模型下载地址，关注?公众号极客开源在后台回复 OCR2.0 关键词。这个只有 580M 参数的 OCR 模型，拿到了 BLEU 0.972 分数，而且模型大小只有 1G 多，在…
前沿技术
- 8
- 0
charles25年5月10日
OpenAI Realtime 低延迟,多模态,实时语音交互

OpenAI 公布了五项重大创新，其中“实时 API”（Realtime API）的新功能，使得开发者能够创建具有低延迟、AI 生成的语音响应功能的应用程序。尽管这一功能不完全等同于 ChatGPT 的高级语音模式，但其能力已经非常接近，旨在帮助开发者为用户提供近乎实时的语音到语音互动体验。除此之外，OpenAI 还发布了其他一系列新功能，旨在进一步提升开发者的 AI 应用构建体验。包括…
前沿技术
- 10
- 0
charles25年5月10日
使用 GPT-4-Vision 和 LangChain 的多模态 RAG

多模态 RAG 与 GPT4Vision 和 LangChain 是指一个框架，它结合了 GPT-4-Vision（OpenAI 的 GPT-4 的多模态版本，能够处理和生成文本、图像以及可能的其他数据类型）的能力与 LangChain，这是一个旨在促进使用语言模型构建应用程序的工具。以下是关键概念的分解：多模态 RAG（检索增强生成）：* 多模态：这个术语指的是处…
前沿技术
- 7
- 0
charles25年5月10日
NotebookLM 用AI帮助你构建第二个大脑

NotebookLM 是一个先进的语言模型工具，可以快速获取信息和洞察。它就像一个虚拟助手，能总结内容、解释概念并激发创意。使用NotebookLM，可以自动获取文档摘要和关键问题，提问以深入了解上传的文件。它还能减少错误信息的风险，并帮助用户轻松核查事实。Karpathy 观察到，大型语言模型（LLM）在智力、记忆、上下文处理和多模态能力等方面的表现，已经显著超越了现有产品在用户界面和用户体验设…
前沿技术
- 5
- 0
charles25年5月10日