全部标签

多模态技术

多模态大模型数据处理策略总结：兼看RAG增强编程语言翻译任务的简单方案

今天是2024年7月31日，星期三，北京，晴。今天是2024年7月份的最后一天，时间过的真的太快了！我们来继续看看两个话题：一个是融合RAG增强不同编程语言之间的翻译效果，关于代码之间翻译的进展，刚好社区有人在提，所以特此来说说，流程很类似，也没太多新意，有点套领域的感觉。但可以看看在这个任务上，那种嵌入模型好一些，以及都有哪些好的代码模型效果更佳。一个是关于多模态的数据处理的一些维度和思路，这些…
前沿技术
- 7
- 0
charles25年5月7日
利用AI进行视频与文本处理：技术流程实现与应用场景分析

在当今的信息化社会中，视频和文本数据的处理和分析变得越来越重要。借助人工智能技术，我们能够高效地处理和分析这些数据，以提供更加智能化的服务。本文将基于以下流程图，详细讲解视频与文本处理的技术实现及其在实际应用中的场景。一、流程图概述这幅流程图展示了一个完整的视频与文本处理系统，从用户提出查询请求开始，到最终给出推荐结果或回答用户问题，具体分为以下几个步骤：视频查询处理文章查询处理文本分割与向量化向…
前沿技术
- 11
- 0
charles25年5月7日
只需将感知推理能力拆分，2B大模型就能战胜20B！国产新框架高效处理视觉任务

Prism团队投稿至凹非寺量子位 | 公众号 QbitAI 只要把推理和感知能力拆分，2B大模型就能战胜20B？！上海AI Lab联合南京大学、香港中文大学等机构，共同推出了一套两阶段框架——Prism。这一框架不仅显式地解耦了视觉语言模型（VLM）的感知和推理，还提供了一种更高效的处理视觉语言任务的方案。最终让2B VLM和ChatGPT的组合表现出相当于10倍参数量VLM的性能。 …
前沿技术
- 4
- 0
charles25年5月7日
Agent | 清华提出智能体IoA新框架：编织异构代理网络，实现协作智能

大家好！今天我分享的文章所属领域是多代理系统和大语言模型，作者针对现有多代理系统框架在集成第三方代理、模拟分布式环境和动态通信协调方面的局限性，提出了一种名为"代理互联网"（Internet of Agents，IoA）的新型框架，旨在实现更灵活和可扩展的LLM多代理协作。原文：INTERNET OF AGENTS: WEAVING A WEB OF HETEROGENEOUS…
前沿技术
- 12
- 0
charles25年5月7日
微软推出Glyph-ByT5-v2，支持10种语言高精度文字海报生成

“Glyph-ByT5-v2: A Strong Aesthetic Baseline for Accurate Multilingual Visual Text Rendering”目前AI在文生图领域已经日趋成熟，通过AI即可一键生成宣传海报。然而目前的AI模型大多只对英文支持较好，其他语言效果仍然有待提高。为了解决这个问题，近日微软联合清华、北大联合推出了一个多语言海报生成模型Glyph-B…
前沿技术
- 7
- 0
charles25年5月7日
腾讯新研究Follow-Your-Emoji：可生成面部说话视频的真人、卡通、雕塑、动物…

近日，由香港科技大学、腾讯混元已经清华大学联合推出了Follow-Your-Emoji，一种基于扩散的肖像动画框架，它使用目标地标序列为参考肖像制作动画。肖像动画的主要挑战是保留参考肖像的身份并将目标表情转移到此肖像上，同时保持时间一致性和保真度。为了克服这些挑战，Follow-Your-Emoji采用了两项精心设计的先进技术，以增强其稳定扩散模型的性能。该团队引入了一种新颖的表情感知地标，这是一…
前沿技术
- 10
- 0
charles25年5月7日
万字长文分享快手 Kolors 可图大模型应用实践

在企业提效方面，多模态能力同样具有重要意义。在 AICon 北京站活动中，我们邀请了快手「可图」大模型负责人李岩，他分享了主题为《快手「可图」文生图大模型应用实践》的演讲内容，以下为李岩演讲内容～期待对你有所启发！另外，在 8 月 18-19 日即将举办的 AICon 全球人工智能开发与应用大会上海站，我们也策划了【多模态大语言模型的前沿应用与创新】专题，目前已上线两个议题，字节跳动研究科学家冯佳…
前沿技术
- 8
- 0
charles25年5月6日
大模型创业：体感温度与实际温度

大模型赛道第二波追赶已经出现，因为第一波做的并没有太多超预期的表现。前两天作为资方在上海参加了奇绩的一个闭门交流会，闭门会请来了普林斯顿的AI Agent方向的算法专家姚顺雨，整个会议也就围绕着大模型的种种技术和应用方向的问题展开，参会者基本上都是各个方向的创业者和寻求转型的技术人员，有一些是计算图形的出身，还有一些具身智能的，当然做广义AIGC+Agent的绝对意义上更多。说实话，整场会听下来…
前沿技术
- 5
- 0
charles25年5月6日
腾讯SEED-Story：生成丰富、叙事连贯及风格一致图文故事的大模型

SEED-Story由MLLM驱动，能够从用户提供的图片和文本作为故事的开始，生成多模态长篇故事，模型、代码与数据都已开源。生成的故事包括丰富且连贯的叙事文本，以及在角色和风格上保持一致的图片。故事可以跨越多达25个多模态序列，尽管在训练期间仅使用最多10个序列。SEED-Story训练过程包括三个阶段：在第一阶段，我们预训练一个基于SD-XL的去标记化器，通过接受预训练的ViT的特征作为输入来重…
前沿技术
- 5
- 0
charles25年5月6日
【LLM】通过文档截图嵌入统一多模态检索

一、结论写在前面论文标题：Unifying Multimodal Retrieval via Document Screenshot Embedding论文链接：https://arxiv.org/pdf/2406.11251项目链接：https://github.com/texttron/tevatro…
前沿技术
- 10
- 0
charles25年5月6日
gpt-4o的视频交互功能，咱也试试，本地部署实现，挺好玩的

之前做了一个语音大模型交互的程序，开源后受到大家的喜爱，很是开心，也带了不少的公众号粉丝，没有看过的可以去看看llm+funasr+tts，diy大模型语音助手，一个自己控制的siri，保姆教程，这几天看openai演示的和GPT-4o的视频交互，挺好玩的，有点类似谷歌眼镜了，可以时时聊天，本着抛砖引玉的思想，我也搞了一个低配版玩玩，测试后觉得还挺有意思，这里开源给大家，…
前沿技术
- 2
- 0
charles25年5月6日
ChartBench 面向复杂图表的认知与推理评测数据集

参考文献ChartBench 面向复杂图表的认知与推理评测数据集引言作者介绍Jay，清华大学深圳国际研究生院计算机博士研究生，IDEA 实习生近年来，通用生成式人工智能大模型在语言处理领域展现出了惊人的语义理解和逻辑推理能力，吸引了越来越多企业和研究者的关注。多模态大模型更是通过将图像转换为与文本形式相似的Token，成功实现了对自然图像内容的理解，在多个多模态数据集（如MME、SEED…
前沿技术
- 8
- 0
charles25年5月6日
Ferret系列之Ferret-UI：用多模态大模型给手机UI理解插上翅膀

导读Ferret-UI 是一个针对手机用户界面(UI)的多模态大模型，它旨在解决以下问题：UI屏幕理解与交互的自动化：手机UI屏幕包含多种元素，如图标和文本，需要模型能够理解并与之交互以实现用户目标。现有方法的局限性：现有的MLLM主要针对自然图像，直接应用于UI屏幕可能会受到限制，因为UI屏幕具有不同的纵横比和更小的兴趣对象。Ferret-UI 提出的贡献包括：模型架构改进：基于Ferret模型…
前沿技术
- 13
- 0
charles25年5月6日
Kosmos-2.5 | 微软提出多模态阅读模型，让机器轻松驾驭文本密集图像

导读尽管多模态大型语言模型（MLLMs）在自然图像理解方面有所进展，但对图文的理解，尤其是高分辨率文本密集图像的处理，仍是一个需要进一步研究的领域。应读者要求，本次解决微软近期开源的另一个工作Kosmos-2.5本文针对文本密集图像（文档图像），提出了Kosmos-2.5模型，有以下创新：多模态端到端整合：KOSMOS-2.5结合了视觉编码器和文本解码器，通过重采样模块连接，实现了文本和视觉信息的…
前沿技术
- 7
- 0
charles25年5月6日
AGI｜基于Joint BERT模型的意图识别技术实践

意图识别技术实践意图识别技术在智能语音助手等场景中应用广泛，伴随多模态模型的演进，其作用愈发关键。通过精准筛选信息，意图识别能显著提升大型语言模型的交互效率，优化用户使用体验。Part1介绍意图识别在诸多领域已经有了非常广泛的应用，例如各个品牌的智能语音助手，如今多模态模型能力迅猛增长，与LLM交流方式变得多样化，为了给LLM提供高质量有价值的上下文嵌入信息，引入意图识别变得尤为重要，其不仅能够过…
前沿技术
- 7
- 0
charles25年5月6日
可灵：快手视频生成大模型

生成式人工智能一日千里。之前，自留地君曾介绍过不少文生视频的应用，比如，D-ID、Sora、EMO等等。不过很遗憾，这些文生视频的大模型，大多我们只能看，不能用。要么是需要支付费用的，如 D-ID，要么是目前并没有全部开放给用户使用，如 Sora 和阿里巴巴的Emo。昨天，在互联网上刷屏的是全新国产视频生成大模型，可灵。快手“可灵”视频生成大模型官网目前已正式上线。相较此前各家放出的视…
前沿技术
- 11
- 0
charles25年5月6日
ChartGemma：基于真实图表数据的图表理解与推理模型

点击上方蓝字关注我们ChartGemma是一个基于PaliGemma架构的多模态模型，通过直接从真实世界图表图像生成的数据进行指令微调，解决了现有图表理解模型依赖数据表格、对齐性差等问题，在图表摘要、问答和事实核查等方面取得了最先进的结果。论文介绍图表是各个领域必不可少的工具，但当前的图表理解模型存在局限性。它们通常依赖数据表而不是视觉模式，并使用弱对齐的视觉语言模型，从而限制了它们处理复杂图…
前沿技术
- 10
- 0
charles25年5月6日
Nature：人工智能出病理报告，准确率高达89.5%！

随着人工智能（AI）技术的快速发展，多模态生成式AI助手在多个临床领域展现出巨大的潜力。在病理学领域，计算病理学的进步使得基于图像和语言的综合分析成为可能。2024年6月12日，哈佛医学院的科学家针对名为PathChat的多模态生成式AI助手的研究发表在Nature杂志。结果显示：PathChat能够理解并处理视觉和语言输入，提供精确的病理学相关查询响应；从活检切片中正确识别出疾病的准确率高达89…
前沿技术
- 5
- 0
charles25年5月6日
浅谈AI生成视频在金融领域的应用

随着数字技术的飞速发展，人工智能成为炙手可热的新赛道，尤其是OpenAI生成式人工智能的成功必将推动行业抵达“奇点”时刻。进入2024年，其推出的文生视频大模型Sora无疑成为了AI领域的一个新亮点。Sora不仅仅是一个工具，更是一种新的生产方式。它对我们的影响不仅仅体现在就业方面，应该会对整个经济层面产生一定的影响。本文章通过什么是sora 入手，介绍其生成视频原理，通过普及Sora常识之后引导…
前沿技术
- 6
- 0
charles25年5月6日
探索AI智能体Agent的核心架构：记忆、工具与行动

近年来，人工智能技术不断发展，智能体Agent在各种应用场景中发挥着越来越重要的作用。这篇文章将详细解析智能体Agent的记忆与决策框架，探讨其多模态感知、记忆、规划决策等各个环节的实现与应用。智能体Agent是人工智能领域的重要研究方向，广泛应用于自动驾驶、智能家居、金融分析等多个领域。本文将以一幅示意图为基础，详细解析智能体Agent在记忆与决策过程中各个模块的功能及其相互关系。并通过实际代码…
前沿技术
- 10
- 0
charles25年5月6日
从AIGC短剧到金融、零售应用，视频生成大模型价值几何？

7月8日，抖音视频大模型即梦支持的AIGC科幻短剧集《三星堆：未来启示录》上线；7月13日，快手视频大模型可灵支持的AIGC原创奇幻短剧《山海奇镜之劈波斩浪》也正式上线。随着视频生成大模型越来越多地应用到短剧以及广告作品当中，对短剧、电影以及广告等行业都将带来深远影响。视频信号的获取方式通常有三种：相机拍摄、图形渲染和视频生成。其中，视频生成是通过生成式AI技术，将用户的多模态输入转化为视频信号。…
前沿技术
- 8
- 0
charles25年5月6日
沉浸式体验：Runway Gen-3 Alpha带你进入神奇的模拟场景！

你有没有想过利用AI技术创造出逼真且美妙的液体模拟场景？Runway Gen-3 Alpha正是这样的工具，它可以模拟水、油、蜂蜜、熔化的玻璃等液体，展现逼真的粘度、物理交互和光学效果。如果你热爱科技和创意，那么接下来的场景一定会让你大开眼界！1. 海底奇幻之舞Prompt: A dynamic motion shot of ethereal underwater caustics da…
前沿技术
- 7
- 0
charles25年5月6日
Stable Diffusion中CFG有啥用？

Classifier-Free Guidance (CFG) 尺度控制着在Stable Diffusion中进行采样时，提示词被遵循的紧密程度，几乎所有的Stable Diffusion AI图像生成器有这个设置选项1.CFG起到什么作用？让我们使用以下提示并查看改变 CFG 比例的效果breathtaking, cans, geometric patterns,&n…
前沿技术
- 6
- 0
charles25年5月6日
专访 LanceDB 创始人：多模态 AI 需要下一代数据基建

AI 的飞速发展为 Data Infra 数据基建带来了前所未有的挑战和机遇。随着 LLM 和多模态AI的兴起，非结构化数据的规模指数级增长，这对数据存储、检索和分析提出了更高要求。就像在云计算时代，Snowflake 和 Databricks 成为了数据乃至整个软件行业最快增长的产品，而到了 AI 时代，我们也相信会诞生下一代的数据产品。本篇内容是海外独角兽对 LanceDB 联合创始人 CEO…
前沿技术
- 8
- 0
charles25年5月6日