全部标签

多模态技术

商汤大模型的「5o」交互，普通人如何和 AI 过一天？

与真实世界的实时交互，是推动 AI 2.0 时代超级时刻和应用爆发的一个核心。在刚刚结束的堪称「AI 界春晚」的世界人工智能大会（WAIC 2024）上，「中国版GPT-4o」亮相，它是来自商汤科技发布的“日日新5o”——国内首个「流式交互」多模态大模型。在商汤的演示下，日日新5o拥有像人一样的实时视觉能力，可以跟人进行流畅的视频交互——能听、能说、能看、无延时，它可以通过摄像头+语音实现和用户的…
前沿技术
- 9
- 0
charles25年5月6日
为医院装载“超级大脑”，商汤启动医疗多模态大模型赋能的智慧医院标杆联合共创

2024世界人工智能大会（WAIC）期间，作为全球医疗大模型创新先行者，商汤医疗携手瑞金医院、华西医院、新华医院、西京医院、中科大附属第一医院、北京清华长庚医院，在行业内率先启动医疗多模态大模型赋能的智慧医院创新示范共创，打造由大模型“智慧中枢”驱动的智慧医院建设示范样板。作为共创的重要成果之一，商汤医疗联合中华医学会病理学分会王哲副主委团队、清华大学何永红教授团队，共同发布了国内首个病理大模型，…
前沿技术
- 7
- 0
charles25年5月6日
AI 赋能营销 | 拓展营销和创意潜能

当我们将 AI 应用于服务数十亿用户、创作者和企业时，其产生的影响是呈指数级增长的。在搜索领域，AI 正在帮助用户找到更具体和复杂问题的答案。同时，在 YouTube 这样的平台上，人们渴望探索新的可能性、发现新奇事物和获得灵感，AI 也在推动着新的探索和创作方式。随着 AI 推动着数字化体验的升级，广告在连接人与商业方面仍然扮演着至关重要的角色。我们帮助人们在这个浩瀚的信息世界中找到所需的内容。…
前沿技术
- 5
- 0
charles25年5月6日
超强 AI 解析器：轻松处理文档、网页、音视频等 10 几种文档，高效清洗和组织你的数据！

OmniParse 是一个强大的数据转换工具，它能够将各种非结构化数据源转化为结构化、易于操作的格式。这个平台专为与生成式人工智能（GenAI）应用程序，如大语言模型的集成而设计。无论是文档、电子表格、图片、视频、音频还是网页内容，OmniParse 都能高效地清洗和组织您的数据，使其成为适用于如检索增强生成（RAG）和模型微调等先进人工智能技术的理想输入。近期热文当 AI 遇上爬虫：让…
前沿技术
- 9
- 0
charles25年5月6日
开源AI回答引擎的新时代：Morphic为你提供高效、准确的智能回答

轱辘凯（glookai.com）是一个专注于智能时代的AI工具应用、测评及介绍的专业社区，从大语言模型到文本、代码、图片、音频、视频、商业、设计等具体应用场景的发展和落地，AI工具一扫光，轱辘凯帮你找到最好的AI工具！AI不会取代人类，但掌握AI工具的人会。智能时代，关注我的人都变强了。1、工具简介Morphic是一款开源的人工智能驱动回答引擎，旨在通过生成用户界面提供精确、快速的查询响应。该工具…
前沿技术
- 19
- 0
charles25年5月6日
论文：大模型图表理解能力哪家强？CharXiv评估结果

CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs （https://arxiv.org/pdf/2406.18521）结论1、人对图表的理解能力准确度是80.5%、GPT-4o是47.1%、开源模型InternVL Chat V1.5是29.2%；2、开源模型在对小的视觉或文本变化的鲁棒性方面远远落…
前沿技术
- 12
- 0
charles25年5月6日
企业如何构建大模型营销体系：架构与实战

在现代营销中，个性化和高效性是关键。随着大数据和人工智能技术的快速发展，基于大模型的营销解决方案逐渐成为企业的首选。本文将通过一幅详细的框架图，带你了解如何在实际业务中构建大模型营销体系，以提升客户体验和营销效果。一、典型场景在大模型营销中，我们主要面对以下典型场景：1. 利用人模型发现新消费者群体助力营销规划通过分析大量消费者数据，企业可以利用人模型识别潜在的新客户群体。这些模型通过机器学习和数…
前沿技术
- 14
- 0
charles25年5月5日
实测：开源轻量化模型Gemma 2 在 A4000 GPU 上表现如何？

前不久，Google 发布了 Gemma 2，这是一个轻量级的大语言模型。这些轻量级模型，继承了 Gemini 模型的技术，旨在打破技术壁垒，让AI的力量惠及更广泛的人群，成为AI民主化进程中的重要里程碑。Gemma 2 有两个版本：90亿（9B）和270亿（27B）个参数，并支持 8K token 的上下文。Google 声称，这一模型的表现优于第一代Gemma模型，同时更加高效。Gemma 2…
前沿技术
- 9
- 0
charles25年5月5日
多模态大型语言模型（MLLMs）在跨图像、视频和音频等多种任务中表现卓越

Web2Code：一款用于网页转代码的全套数据集（含训练数据和评估框架），得分显著提升发布时间：2024 年 06 月 28 日代码编写Web2Code: A Large-scale Webpage-to-Code Dataset and Evaluation Framework for Multimodal LLMs摘要：多模态大型语言模型（MLLMs）在跨图像、视频和音频等多种任务中表现卓越。…
前沿技术
- 7
- 0
charles25年5月5日
SpeechLLM: 分析音频演讲者情感的大模型

SpeechLLM 是一种多模态语言模型 (LLM)，专门用于分析和预测对话中说话者的元数据。这种先进的模型集成了语音编码器，可将语音信号转换为有意义的语音表示。这些嵌入与文本指令相结合，然后由 LLM 处理以生成预测。该模型输入16 KHz的语音音频文件，并预测以下内容：SpeechActivity：音频信号是否包含语音（True/False）文字记录：音频的 ASR 文字记录发言者的性别（女/…
前沿技术
- 3
- 0
charles25年5月5日
AI结合游戏NPC会发生什么？

不需要脚本的人工智能 NPC 可以让游戏和其他世界变得身临其境。——尼尔·弗斯不久前，一个初学者玩家刚刚踏入电子游戏的世界仅一年多。这份原本是“给孩子们”的圣诞礼物——Xbox Series S，却意外地将他带入了深夜的游戏狂欢。他迅速被开放世界游戏所吸引，那里，他可以自由探索广袤的虚拟空间，迎接各种挑战。在《荒野大镖客 2》这款以狂野西部为背景的游戏中，他体验到了前所未有的自由。他骑着马，穿越寂…
前沿技术
- 5
- 0
charles25年5月5日
基于多模态信息抽取的菜品知识图谱构建

菜品作为到店餐饮各相关业务的基石，提供了更细粒度的视角理解餐饮供给，为到餐精细化运营提供了抓手。美团到店研发平台/数据智能平台部与天津大学刘安安教授团队展开了“基于多模态信息抽取的菜品知识图谱构建”的科研合作，利用多模态检索实现图文食材的识别，扩展了多模态菜品食材识别的范围，提升了食材识别的准确性。该项工作提出了一个跨模态食材级数据集，该数据集提供食材及其关系有助于增强对中国烹饪的理解。介绍该工作…
前沿技术
- 5
- 0
charles25年5月5日
揭秘 Agent-E：浏览器内的智能助理，升级在线自动化体验

在这个飞速发展的数字时代，每分每秒都至关重要。设想一下，拥有一位隐形助手在浏览器后方勤勉工作，处理各种繁复任务，从日常冲浪到专业项目管理，这将是何等的便捷！今天，我们就来深入探索这一革新工具 —— Agent-E，一个基于浏览器的智能自动化系统，它正以全新的方式革新我们的线上生活体验。?✨自动化触手可及，尽在指尖 ?Agent-E 基于强大的 AutoGen 代理框架，通过自然语言交互，为你的浏览…
前沿技术
- 8
- 0
charles25年5月5日
作为微软开源的全新架构，Florence-2 以其小巧的体积、炸裂的性能以及对多任务的统一处理方式，在视觉理解领域掀起了一阵旋风

还记得我们之前介绍过的轻量级视觉基础模型 Florence-2 吗？Florence-2：微软开源的轻量级视觉基础模型，性能炸裂，吊打巨型模型！作为微软开源的全新架构，Florence-2 以其小巧的体积、炸裂的性能以及对多任务的统一处理方式，在视觉理解领域掀起了一阵旋风。今天，我们将更进一步，探索如何将 Florence-2 应用于视觉问答（VQA）任务。我们将带你领略 Florence-2 如…
前沿技术
- 7
- 0
charles25年5月5日
人工智能与教学：人工智能AI把课文变成视频。

平台改版，避免错过精彩内容，请把我设置为星标：人工智能与教学前一篇文章说了用AI给课文画插图。人工智能与教学：用AI画课文插图今天就升级了，讲一讲用AI把课文变视频。先来看看效果，还是用的一篇一年级的课文。《秋天》好了，下面我们就来看看具体的操作。首先是网站地址：白日梦 https://brmgo.com/要想使用，需要注册然后，点击开始创作。然后，输入标题和正文。然后选择风格最后就生成图片，视频…
前沿技术
- 8
- 0
charles25年5月5日
SignLLM：通过文字描述生成手语视频的多语言模型

SignLLM ，世界上第一个通过文字描述生成手语视频的多语言模型。模型可以将输入的文本或提示转化为相应的手语手势视频。SignLLM可以生成包括美国手语（ASL）、德国手语（GSL）以及八种不同的手语。它还引入了额外的多语言手语数据集，名为Prompt2Sign，并基于此数据集开发了多种生成手语的模型。Prompt2Sign 数据集的引入为了确保手语视频生成的准确性和流畅性，SignLLM 引入…
前沿技术
- 15
- 0
charles25年5月5日
23.5k Star！OpenVoice：这款AI工具能够精准模仿你的声音并说出任何语言！

从一小段音频中复制声音并生成多种语言的语音。它不仅支持精准的音色克隆，还可以灵活控制语音风格，如情感和口音，确保声音输出自然流畅。体验地址：https://app.myshell.ai/zh/web3/chat准确的音色克隆OpenVoice 可以准确克隆参考音色并生成多种语言和口音的语音。灵活的语音风格控制OpenVoice 可以对语音风格（例如情感和口音）以及其他风格参数（包括节奏、停顿和语调…
前沿技术
- 7
- 0
charles25年5月5日
可视化文档引擎全面更新，解锁文档新玩法

Nocode/WEP 基本介绍Nocode/WEP 是一款我结合零代码设计思想和文档引擎设计模式开发的一款多模态文档系统。我们使用它可以快速实现：图/文/音/视频融合的文档内容个人/企业知识库AI辅助创作多组态的富文档展现（插件的方式集成任何web组件）内容 + 动态信息流接入的文档应用文档交互反馈能力设计它的初衷源于我对现有文档知识库的反思。我采用前端最前沿的设计思想和技术来实现Nocode/W…
前沿技术
- 9
- 0
charles25年5月5日
阿里云 PAI 大语言模型微调训练实践

导读人工智能平台 PAI 是面向开发者和企业的 AI 工程化平台，提供了覆盖数据准备、模型开发、模型训练、模型部署的全流程服务。本文将分享阿里云 PAI 大语言模型微调实践。主要内容包括以下几大部分：1. 大语言模型微调简介2. 使用 PAI-QuickStart 微调大语言模型3. 模型微调实践分享嘉宾｜梁权阿里云人工智能平台 P…
前沿技术
- 10
- 0
charles25年5月5日
斯坦福AI视频生成工具免费开放！30秒时长，马斯克看了效果会沉默

将音频、图像、视频整合进同一工作流，这个由斯坦福初创公司发布的视频工具火了！预览版支持生成30S逼真视频，网友们直呼不输Luma。抢先看性转版马斯克激情说唱：与Luma一样，目前这个名为Hedra的工具可以免费试用。在给大家带来一手实测前，再来看一波新鲜整活儿~让面值10德国马克上的“数学王子”高斯自我介绍：让石像说话、眨眼、摆动头部：生成虚拟土豆人角色：让僵尸管家变换表情：好了，鉴于近期翻车事件…
前沿技术
- 3
- 0
charles25年5月5日
让图片开口说话的模型Hallo: 基于音频驱动的肖像图像动画，精准唇形同步，支持多种语言和风格

前言让静态的图片“开口说话”，一直是人们对人工智能的期待。近年来，随着深度学习技术的发展，音频驱动的肖像图像动画技术取得了长足的进步。各种模型涌现，但如何实现精准的唇形同步、保持视频的真实感和流畅性，以及支持多种语言和风格，仍然是研究人员面临的挑战。来自复旦大学、百度、苏黎世联邦理工学院和南京大学的研究团队，共同开发了一个新的音频驱动肖像图像动画模型 Hallo，该模型在多个方面实现了突破，为打造…
前沿技术
- 7
- 0
charles25年5月5日
微软Azure AI更新视频翻译和语音翻译 API 功能！

很高兴与大家分享 Azure AI 语音翻译产品套件的两个重大更新！分别是视频翻译和增强的实时语音翻译 API。视频翻译（批量）微软宣布推出视频翻译预览版，这是一项突破性的服务，旨在改变企业本地化视频内容的方式。随着全球市场对可访问且引人入胜的视频内容的需求不断增长，视频翻译提供了一种无缝解决方案来克服语言障碍。此次发布包括 Azure Speech，客户可以使用自己的视频资产进行试用，并具有以下…
前沿技术
- 11
- 0
charles25年5月5日
AI终将淘汰不会大模型的人？

上篇文章介绍了大模型的一些原理，大模型之前的人工智能技术，无论是视觉还是语音，其核心都是“分类”。对于神经网络算法，其目的就是尝试找到一条直线或一个平面或某种界限，能够把数据按照某种特征隔离开。某个AI算法好不好的表现就是分类准不准，例如能不能在一堆照片中找到小狗的特征，能不能准确把一段语音转录成文字。而2020年之后，AI从“小模型+判别式”转向“大模型+生成式”，从传统的人脸识别、目标检测、文…
前沿技术
- 7
- 0
charles25年5月5日
Runway发布Gen-3 Alpha，逼真到分不清现实！

1小时前，runway悄悄发布了一个新的AI视频模型。Gen-3 Alpha：用于视频生成的新基础模型近期AI视频大模型神仙打架，前有国产可灵，后有Luma，现在runway发布gen-3 Alpha测试版本，加速搅局市场，仿佛在跟Sora喊话：你还来吗？虽然还不能体验，看完效果后，一个字，赞！仿佛告诉我，我可以在AI视频领域大展拳脚。Gen-3 Alpha核心特点Gen-3 Alpha…
前沿技术
- 15
- 0
charles25年5月5日