全部标签

多模态技术

语音识别大赛五连冠！开会就能用！

提问：5个人一起开会，随时打断、快速切换、边走边说，会议记录怎么对齐？虽说有AI记录，但在复杂的会议场景中，到底怎样实现高精准的语音识别和说话人分离？这个问题，现在已经可以解决了。近日，科大讯飞再获CHiME大赛冠军，在“会议室场景远场多人语音识别”任务中，突破了人数估计、语音重叠、远场混响、人员移动及对话风格随意等难关。把技术评测搬到会议室CHiME（Computational Hearing …
前沿技术
- 16
- 0
charles25年5月9日
独家丨科大讯飞多模态：都说端到端好，看谁有本事先做出来

2024年8月19日那天，“星火极速超拟人”开放内测体验，我的“后援”群里有位专家，短平快点评了一句：“真不错，首个”。果然，还是CTO级别的技术大牛反射弧短。我没看透，人家结论都出来了。定定神，还有两点值得高兴高兴：第一，基础模型日趋同质化，没有新变量，可能要进入瓶颈；多模态的“多”字，能带来新机会；第二，不是照猫画虎式的创新，GPT-4o从来没有公布实现方法，仅仅展示了成果。这意味，想实现，…
前沿技术
- 8
- 0
charles25年5月9日
国内首个多模型AI搜索引擎，专门为AI设计的搜索引擎

在如今信息爆炸的时代，如何搜到自己心仪的资料和信息非常重要。传统的搜索充斥着大量的广告和营销内容，使得用户识别价值信息非常困难。而且用户针对一个搜索，期望得到文字，视频，图片等多维度的信息。这也是传统搜索做不到的地方因此国内首个多模型AI搜索引擎——博查AI搜索，应运而生，目前正在公测阶段。01使用方法博查地址：https://bochaai.com/进来后页面非常干净，没有任何多余的广告或者营销…
前沿技术
- 21
- 0
charles25年5月9日
语音驱动嘴型与面部动画生成算法大盘点

在数字人领域，语音驱动嘴型与面部动画生成算法正发挥着越来越重要的作用。今天，就为大家分享几个目前具有代表性的算法，包括开源和未开源的。一、开源算法DeepFaceLive：这是一个功能强大的开源项目，能够实现实时的语音驱动面部动画。它利用深度学习技术，通过对大量的语音和面部表情数据进行训练，可以生成非常自然的嘴型和面部动画效果。用户可以根据自己的需求进行定制和调整，适用于各种数字人应用场景。开源地…
前沿技术
- 22
- 0
charles25年5月9日
如何利用视觉AI做自动化测试？–Applitools

什么是视觉AI测试？视觉测试可以理解为功能测试的一种特殊形式。通过视觉测试，断言等方式检测被测试应用或系统UI的视觉变化。而这些视觉AI解决方案可以使用视觉人工智能（Visual AI）来发现像缺失元素、扭曲布局和重叠文本这样的漏洞，这些问题常常被传统的自动化技术所忽视。本文以AI视觉测试解决方案applitools为载体进行讲解Applitools是如何工作的？测试是交互加上验证。测试用例步骤仅…
前沿技术
- 21
- 0
charles25年5月9日
视觉RAG：变革传统深度学习模型开发流程，开创下一代多模态视觉模型的新时代

我们相信视觉领域即将发生范式转变，从而产生计算机视觉管道 2.0，其中一些传统阶段（例如标记）将被可提示的基础模型所取代。本文深入剖析了Visual RAG（Visual Retrieval-Augmented Generation）的创新领域，揭示了它的核心价值以及它如何根本性地转变了我们对传统计算机视觉任务的处理方式。文章将从RAG的基本概念出发，深入探讨其在视觉识别、图像分析和智能监控等应用…
前沿技术
- 9
- 0
charles25年5月8日
Sora：大视觉模型的背景、技术、局限性

1、简介Sora 是一种文本到视频生成 AI 模型，由 OpenAI 于 2024 年 2 月发布。该模型经过训练，可以根据文本指令生成现实或想象场景的视频，并显示出模拟物理世界的潜力。与以前的视频生成模型相比，Sora 的特点是能够生成长达 1 分钟的高质量视频，同时保持对用户文本指令的遵守。Sora 的这一进展体现了长期人工智能研究使命，即为人工智能系统（或人工智能代理）提供理解运动中的物理世…
前沿技术
- 7
- 0
charles25年5月8日
基于Threejs的3D 互动虚拟展厅+ChatGPT 虚拟人聊天

前两天看到腾讯云媒体服务发布的一个基于web3D 技术构建的在线互动虚拟展厅，展厅的各个区域入口设有AI NPC（非玩家角色），这些AI助手基于ChatGPT，能够理解用户需求并提供专业、准确的回答，帮助用户更好地了解产品和技术。体验地址：https://trtc.io/showroom这里面很多技术细节都是之前自己做元宇宙的时候很想实现的功能，通过这个演示场景，对自己的元宇宙产品也得到…
前沿技术
- 12
- 0
charles25年5月8日
MiniMax发布AI视频生成模型：可生成6S，限时免费

MiniMax的视频生成模型终于来了。8月31日，MiniMax创始人、CEO闫俊杰在2024 MiniMax Link伙伴日活动上发布了MiniMax首款AI高清视频生成模型技术：abab-video-1。活动现场播放了自称全部由MiniMax视频模型所创作的2分钟AI短片《魔法硬币》。目前，短片《魔法硬币》已在MiniMax官方视频号上线。MiniMax称会将视频背后应用的prompt后续公布…
前沿技术
- 14
- 0
charles25年5月8日
火山 RTC+豆包大模型，给用户体验装上银色子弹

据相关数据显示，早在 2020 年，国内选择语音输入的用户数量已经达到 2.5 亿，使用率接近 40%，更为便捷的语音交流，已经越来越成为主流。前几年就涌现出许多深受用户喜爱的聊天室、语音房产品，而最近这一波 AIGC 浪潮之下，更是如雨后春笋，诞生了 AI 虚拟陪伴、AI 口语陪练、AI NPC、AI 游戏陪玩等等各种应用。遍地开花的产品，也激发了对更优质的 AI 语音交互的强烈需求。正如我们几…
前沿技术
- 10
- 0
charles25年5月8日
多模态大模型技术白皮书 2024

不同于语言大模型只对文本进行处理，多模态大模型将文本、语音、图像、视频等多模态数据联合起来进行学习。多模态大模型融合了多种感知途径与表达形态，能够同时处理和理解来自不同感知通道（例如视觉、听觉、语言和触觉等）的信息，并以多模态的方式表达输出。1.1 多模态大模型的技术体系现有的多模态大模型主要有面向理解任务的、面向生成任务的、兼顾理解和生成的、知识增强的多模态大模型。1.1.1 …
前沿技术
- 10
- 0
charles25年5月8日
最近用大模型的几点感想~

图片识别今天同事丢给我一张图片格式的思维导图，让我参考思维导图的结构写一个大模型的建设方案，但这张图有些内容不符合我们的实际，需要对这张图做一些修改，可是没有源文件。于是想到了上一篇文章中的方法，把图片丢给GPT-4o,让它给识别并生成markdown格式的文本，然后利用Xmind进行自动生成。整体还是比较准确的，如下图所示：读规划图识别效果挺好，还做了结构化提取。猜谜语老婆逛商场时，看到中国黄金…
前沿技术
- 9
- 0
charles25年5月8日
多模态大模型中，多模态融合后怎样知道最终结果受哪种模态影响更大？

本篇介绍多模态大模型中如何基于最终结果分析各模态的影响。具身智能被众多大佬看好，通往AGI的路最终肯定需要多个模态的大模型互相融合。多个模态配合好也是有可能去构建一个模拟现实的世界模型的。最近一直在研究和尝试多模态大模型在一些VQA领域的前瞻研究和实际落地部署问题，遇到一个值得思考的问题：如果当预测结果出问题的时候，怎么去溯源是哪个模态的数据出的问题呢？这个方向感觉探索的足够深入是可以发论文的。由…
前沿技术
- 13
- 0
charles25年5月8日
我们给AI打了通视频电话，发现它好像啥都能唠。。。

三个月前的 OpenAI 发布会，相信哥几个多少已经见识过 GPT-4o ，那跟真人一样丝滑的视频对话能力了。还有谷歌紧跟着推出的 Project Astra ，实力看着也丝毫不输 GPT-4o 。那阵子，几乎全网都在吹 AI 的交互能力进化得有多么多么强，什么史诗级、 Next Level 的词儿都用上了。结果怎么着， GPT-4o 说好的视频通话功能是一拖再拖， Project As…
前沿技术
- 12
- 0
charles25年5月8日
多模态提示技术：融合文本、图像、音频的AI应用

欢迎来到我们提示工程系列的第五篇文章。在之前的文章中，我们探讨了文本提示技术和多语言提示技术。今天，我们将跨越单一模态的界限，深入探讨多模态提示技术。这种技术允许AI系统同时处理和理解多种类型的数据，如文本、图像、音频等，从而创造出更加智能和versatile的应用。让我们一起探索如何设计和实现能够理解和生成多模态信息的AI系统。1. 多模态AI的重要性在我们深入技术细节之前，让我们先理解为什么多…
前沿技术
- 7
- 0
charles25年5月8日
Docmatix – 超大文档视觉问答数据集

本文，我们将发布，比之前的数据集大 100 倍。当使用 Docmatix 微调 Florence-2 时，消融实验显示 DocVQA 任务的性能提高了 20%。Docmatix 数据集样本示例缘起于的开发，丹鼎包含了 50 个数据集，旨在用于视觉语言模型 (VLM) 的微调，我们的就是由此训得。在丹鼎的开发过程中，我们发现缺乏大规模文档视觉问答 (DocVQA) 数据集。Idefics2 依赖的视…
前沿技术
- 10
- 0
charles25年5月8日
Qwen2-VL 全链路模型体验、下载、推理、微调实战！

01引言经过了一年的不懈努力，今天通义千问团队对 Qwen-VL 模型进行重大更新——推出 Qwen2-VL。Qwen2-VL 有什么新功能？· 增强的图像理解能力：Qwen2-VL显著提高了模型理解和解释视觉信息的能力，为关键性能指标设定了新的基准· 高级视频理解能力：Qwen2-VL具有卓越的在线流媒体功能，能够以很高的精度实时分析动态视频内容· 集成的可视化agent功能…
前沿技术
- 14
- 0
charles25年5月8日
发布！首个月球专业大模型来了

今天，在2024数博会上，中国科学院地球化学研究所与阿里云联合发布国际首个“月球科学多模态专业大模型”（简称“月球专业大模型”）。该大模型基于阿里云通义系列模型构建，目前在月球撞击坑年代和形态判别上，准确率已达到80%以上。中国科学院院士、中国月球探测工程首任首席科学家欧阳自远表示，随着人类深空探测活动的快速推进，探测数据呈井喷式增长。科学大数据已然成为推动科技创新的强大引擎。目前在数据管理方面，…
前沿技术
- 9
- 0
charles25年5月8日
AGI｜前端页面如何支持多模态大模型的流式返回？一文弄懂！

前端页面如何支持多模态大模型的流式返回随着人工智能技术的快速发展，多模态大模型（如OpenAI的GPT-4）在各类应用中变得越来越普遍。这些模型不仅可以处理文本数据，还可以理解和生成图像、视频、音频等多种类型的数据。在前端页面中实现对这些大模型的支持，尤其是流式返回结果，可以显著提升用户体验。本篇文章带大家了解一下前端前端页面如何支持多模态大模型的流式返回。作者李好&nbs…
前沿技术
- 5
- 0
charles25年5月8日
AI时代如何讲故事？SEED-Story开启多模态叙事新篇章

在科技不断进步的今天，我们对于讲故事的方式也在发生巨大的改变。传统的文字叙事正在与生动的图像融合，带来更具沉浸感的阅读体验。而在这个背景下，SEED-Story的出现，为我们揭示了多模态故事生成的全新可能性。1. 什么是多模态故事生成？多模态故事生成，简单来说，就是通过结合文本和图像来讲述一个完整的故事。这种方式不仅让故事更具视觉冲击力，还能够通过图文结合，让读者更深入地体验情节发展。然而，要实现…
前沿技术
- 6
- 0
charles25年5月8日
AI生产实践 | 基于大语言模型的海外KOL视频总结与问答

在海外市场，通过KOL进行游戏宣传是一种常见且重要的市场营销方法。特别是对于海外情况不了解，但是如何快速对KOL进行有效的分类和管理是一个非常重要的问题。常见的方法就是对KOL的历史发布视频内容进行快速理解，从而出判断其风格是否与品牌预期类似等方式实现。但是，因为全球多语言的环境以及大量的历史视频内容，使得我们无论在时间和能力上都存在较大的困难在短期内完成这样一个工作。这时，一种基于大语言模型的视…
前沿技术
- 12
- 0
charles25年5月8日
AI时代如何讲故事？SEED-Story开启多模态叙事新篇章

在科技不断进步的今天，我们对于讲故事的方式也在发生巨大的改变。传统的文字叙事正在与生动的图像融合，带来更具沉浸感的阅读体验。而在这个背景下，SEED-Story的出现，为我们揭示了多模态故事生成的全新可能性。1. 什么是多模态故事生成？多模态故事生成，简单来说，就是通过结合文本和图像来讲述一个完整的故事。这种方式不仅让故事更具视觉冲击力，还能够通过图文结合，让读者更深入地体验情节发展。然而，要实现…
前沿技术
- 3
- 0
charles25年5月8日
用多模态技术在多媒体系统中实现场景分类

1. 前言视频场景分类算法是计算机视觉领域研究的热门内容，并作为复杂任务系统的前置算法，能够应用于我们多媒体实验室多项业务，如内容自适应转码、画质智能修复和视频质量评估（VQA）中。通过针对不同类型的图像自适应抉择不同的模型，从而精准有效提升算法在业务中的实际效果。语言、视觉是人类感知世界最基本的方法，也是人工智能理解世界的两大支柱。多模态是结合了图像、文本、音频等多种数据类型的一种技…
前沿技术
- 4
- 0
charles25年5月8日
Meta推出Transfusion：统一Transformer和Diffusion

Meta 又搞了个大新闻！他们推出了一种叫做 Transfusion 的全新训练方法，彻底颠覆了多模态 AI 模型的玩法！以后，用单个模型就能同时生成文本和图像，而且效果炸裂！传统的做法是把图像量化成离散的 token，然后用语言模型来处理。但这种方法有个致命缺陷：图像信息在量化过程中会损失，导致模型的生成能力受限。而 Transfusion 则另辟蹊径，它直接把语言建模（预测下一个 token）…
前沿技术
- 9
- 0
charles25年5月8日