-
刚刚,DeepSeek又探索新架构了,开源OCR 2
机器之心编辑部嘿!刚刚,DeepSeek 又更新了! 这次是更新了十月份推出的 DeepSeek-OCR 模型(参见:太强了!DeepSeek 刚刚开源新模型,用视觉方式压缩一切)。 当时 DeepSeek-OCR 的出世,引起了大家对视觉压缩的关注与讨论,而这一次,DeepSeek 对视觉编码下手了。 可以说,刚刚发布的 DeepSeek-OCR 2 通过引入 DeepEncoder V2 架构…- 3
- 0
-
构建物理 AI 的引擎:NVIDIA Cosmos
在开放复杂的物理环境中稳定运行,机器人需要能够理解环境的动态演化以及自身行动可能带来的结果。在这一演进过程中,世界模型逐渐成为连接高层智能与底层执行的关键基础设施,为机器人在真实物理世界中实现可靠的感知、决策与行动闭环提供支撑。NVIDIA Cosmos:面向物理 AI 的世界基础模型NVIDIA Cosmos 包含一系列先进的预训练多模态模型,为开发者构建虚拟世界、实现智能推理,提供了一套灵活、…- 2
- 0
-
多模态RAG不止知识问答:文搜图与图搜图的四种实现方案
引言在传统的RAG系统中,我们主要处理文本到文本的检索场景。然而,现实世界的知识库往往包含大量图片、图表等视觉信息。如何让用户通过自然语言查询找到相关图片(文搜图),或者通过一张图片找到相似图片(图搜图),成为多模态RAG需要解决的核心问题。核心挑战多模态检索面临的根本挑战是:如何让文本和图像在同一个语义空间中进行比较?传统的文本Embedding模型只能处理文本,图像特征提取模型只能处理图像,两…- 2
- 0
-
Pulsar特性在AI场景中的使用
没有意外,随着模型规模的持续增长和应用场景的日益复杂,AI Infra 也自然的从"单体架构" -> "分布式架构"进行演进,例如:在大模型训练和推理阶段,随着模型规模的增长,需要通过多维度并行技术(数据并行、张量并行、流水线并行等)并发使用数百甚至数千个 GPU 才能满足训练需求;在智能体应用阶段,从能对话、写文案的 Chatbot 到如今能自主规划…- 2
- 0
-
多模态检索新突破!Qwen3-VL-Embedding/Reranker AI 真正“看懂“你在搜什么,从图片到视频全拿下!
Qwen3-VL-Embedding 和 Qwen3-VL-Reranker:统一多模态表征与排序摘要2025年6月,Qwen 团队开源了面向文本的 Qwen3-Embedding 和 Qwen3-ReRanker 模型系列,在多语言文本检索、聚类和分类等多项下游任务中取得了业界领先的性能。2026年1月,该团队推出了 Qwen 家族的最新成员:Qwen3-VL-Embedding 和&…- 3
- 0
-
多模态文档解析模型进展:UNIREC-0.1B架构、数据情况、实际测试
UNIREC是一个0.1B参数量的模型,整体pipline遵循layout(直接拿的paddleocr的layout模型)+ VLM OCR(UNIREC-0.1B)。从这个模型可以看一个趋势,VLM-OCR正在朝参数小进化。下面来看简单看下模型架构、数据情况、实际测试,性能实际测下来一般,仅供参考。文档解析的开源项目模型技术方案都在《文档智能专栏》,如:再看两阶段多模态文档解析大模型-Paddl…- 1
- 0
-
DeepSeek OCR + mHC 将开启多模态“信息动力学”新范式
笔者昨晚突然想到 “融合DeepSeek OCR + mHC” 这个主题,兴奋的睡不着,连夜梳理。站在2026年初,回头看DeepSeek这两项看似孤立却内在契合的技术, 笔者隐约察觉到 DeepSeek可能的大棋局。OCR 是关于“感知”的革新,mHC 则是关于“认知”的重塑,两者融合,会带来一次多模态大模型向“信息动力学”本质的回归。一、 从符号逻辑到象形空间笔者在从DeepSeek…- 2
- 0
-
Qwen3-VL-Embedding系列上新:探索统一多模态表征与排序
2025年6月,我们开源了面向文本的Qwen3-Embedding和Qwen3-ReRanker 模型系列,在多语言文本检索、聚类和分类等多项下游任务中取得了业界领先的性能,被社区开发者广泛使用。 今天,我们非常荣幸地推出Qwen家族的最新成员:Qwen3-VL-Embedding和Qwen3-VL-Reranker模型系列。这些模型基于我们最近开源的Qwen3-VL模型构建,专为多模态信息检索和…- 1
- 0
-
NVIDIA Audio2Face-3D 实时语音驱动面部动画最新部署指南
先分享一下利用昨天集成的数字人口播视频模块做了一个孙悟空唱自己一生的视频,也是之前抖音上很火的一个形态。看看效果:整个过程在我3070电脑上跑了10分钟,效果还可以,就是由于素材的原因,脸部容易动。上述工作流是:Nano bananer生成图片,grok将图片动起来,然后gemini生成歌词,suno生成音乐。然后利用数字人口播视频模块生成上述视频。因为suno和生口播数字人的平台都是按时长收费的…- 4
- 0
-
阿里突然开源Live Avatar!虚拟人进入“无限续帧时代”
过去一年,AI 视频生成的战场上,大家都在追逐“更逼真、更像真人”的短视频效果。但阿里联合多所高校开源的 Live Avatar,却悄悄把方向盘打向了另一个维度:不是做更好看的视频,而是做“能一直播下去”的虚拟人。这件事的意义,比你想象得大得多。为什么 Live Avatar 是一个时代分水岭?我们先说一句可能会被引用很久的话:Live Avatar 不是一个模型,它是“虚拟人基础设施”…- 1
- 0
-
蓝色光标×火山引擎:用AI实现多模态内容创作自由
生成式 AI 正在深刻改变营销行业,构建多模态内容能力成为提升效率、推动行业发展的关键。作为全球前十的广告营销企业,蓝色光标自2024年起,与火山引擎建立深度合作,围绕 AI 大模型技术在营销场景的落地展开多维度探索。近日,双方进一步深化合作,将火山引擎的 AI 和云计算技术与蓝色光标 BlueAI 应用引擎深度融合,用 AI 重塑营销内容生产模式和服务模式,高效应对营销行业对内容的爆发…- 1
- 0
-
20年过去了,大厂们又开始卷输入法了。
前段时间,字节的豆包输入法正式上线了应用商店。世超也就是手痒,第一时间下回来替大家尝了个鲜。刚打开时我还挺惊讶的,因为软件简洁得有点过分了,不像大厂的产品。目前也只能看到一些输入相关的基础功能,没啥多余的复杂功能,设置页面也挺纯粹,是干嘛的调整啥的很清楚。它的词库联想能力还正常,要说能打败同行的亮点吧,就是它的语音识别,确实能打。又快又准,前脚说完后脚已经识别并修正好了,有时我甚至嘴瓢了它也能纠正…- 3
- 0
-
断网条件下使用本机AI助手软件实现Excel表格转换为机器可理解的Markdown格式
在不调用 MCP(Model Context Protocol)服务器或任何外部工具(如 Python 脚本、Azure 服务等)的情况下,仅通过 Prompt 工程来完成 Excel 到 Markdown 的转换,需要选择具备强大 视觉理解(Vision)能力的 多模态大语言模型(Multimodal LLM, MLLM)。不调用MCP工具的原因也是害怕把敏感数据通…- 2
- 0
-
告别表格错行与手写噩梦:Mistral OCR 3 深度解析
本文将深入探讨 Mistral OCR 3 的核心升级、架构逻辑及其在 Document AI 生态中的地位。核心能力:四大维度的精度飞跃Mistral OCR 3 并非简单的增量更新。在针对真实业务场景的内部基准测试中,其综合胜率比前代产品 OCR 2 高出 **74%**。我们将其核心能力升级总结为以下四个方面:手写体深度解析:支持对草书、混合标注以及在印刷模板上叠加的手写文字进行精准捕捉。这…- 2
- 0
-
【一键部署系列】|09|TTS|把TTS流式延迟从2秒干到51毫秒,提升40倍的极限优化实战
【一键部署系列】|09|TTS|把TTS流式延迟从2秒干到51毫秒,提升40倍的极限优化实战微信公众号:[AI健自习室]关注Crypto与LLM技术、关注AI-StudyLab。问题或建议,请公众号留言。Info项目地址:https://github.com/neosun100/kokoro-ttsDocker Hub:https://hub.docker.com/r/neosun/k…- 3
- 0
-
通信工程CAD图纸智能化,PaddleOCR-VL+ERNIE-4.5联手凯通科技实现“感知-决策-知识”闭环
行业背景&痛点计算机辅助设计(CAD)作为工业软件的重要组成部分,支撑着从产品设计到制造的全流程数字化,被广泛应用于航空、航天、汽车等多个领域。近年来,随着AI技术的发展,CAD与AI的融合成为趋势。国外厂商在这方面已经取得了显著成就,而国内厂商也在迅速追赶,尤其是在AI解决方案和实际应用方面展现出了独特的优势。然而,在CAD图纸智能审查领域仍普遍面临“图纸解析精度低、业务关联难”的技术瓶…- 2
- 0
-
零成本!我用 PaddleOCR API 做了一款视频字幕提取神器
前言前几天在体验视频解析文件AI应用的时候,发现了一个非常方便的功能:自动提取视频内容。核心原理是基于计算机视觉、图像处理和机器学习技术,通过对视频帧序列进行解码、分析和特征提取,将非结构化的视频数据转化为可识别、可检索的结构化信息。核心处理流程中肯定会用到OCR技术,如果能把多模态能力和 OCR 技术结合起来并把它整合到视频字幕提取工具里,是不是就能实现零成本提取视频字幕了呢?背景早在10月份的…- 3
- 0
-
用一张12GB 显存的显卡本地部署 DeepSeek-OCR
运行环境配置NVIDIA GeForce RTX 3080 Ti(12G)Ubuntu 20.04 + CUDA 11.8 + PyTorch 2.6.0这种配置在许多开发者手中都很常见,无需专业服务器即可上手。源码安装步骤1. 克隆仓库:git clone https://github.com/DeepSeek-ai/DeepSeek-OCR.git2. 创建并激活虚拟环境:conda crea…- 1
- 0
-
京东推出JoyVoice,解决多说话人语音合成难题
标题:JoyVoice: Long-Context Conditioning for Anthropomorphic Multi-Speaker Conversational Synthesis链接: https://arxiv.org/pdf/2512.19090作者单位:JD SpeechTeam发表时间:2025年12月22日Demo地址:https://jea-speech.gi…- 2
- 0
-
“基于多模态大模型的智能保险理赔系统”荣获上海金融创新奖
12月26日,上海市人民政府进行2023—2024年度上海金融创新奖颁奖活动,蚂蚁集团“基于多模态大模型的智能保险理赔系统”荣获奖项。据了解, “上海金融创新奖”是国内首个聚焦金融创新领域的省部级政府奖项,也是金融领域唯一由上海市人民政府组织评选表彰的奖项,是金融创新领域最具含金量的奖项之一。“智能保险理赔系统”聚焦传统保险理赔长期存在的人工依赖重、流程冗长等痛点,融合三大核心技术,实现重大突破。…- 3
- 0
-
全模态大模型部署,vLLM-Omni 来了,100%开源
vLLM 是我们公众号的常客了,几乎所有关于大模型本地部署的文章都是用 vLLM 启动的安全审核大模型,本地部署,实测腾讯混元 OCR 大模型,本地部署,实测大模型本地部署相关文章,我做了一个网站但是部署多模态,尤其是最近 N 多全模态大模型,vLLM 就有点捉襟见肘了vllm-project 团队开源了一个新框架——vLLM-OmnivLLM-Omni什么是 vLLM-Omni? 最初,vLLM…- 3
- 0
-
Qwen-lmage-Layered:图片分层 指哪改哪
我们很高兴推出全新图像生成模型Qwen-lmage-Layered,新模型采用自研创新架构,可将图片“拆解”成多个图层。这种分层表示赋予了图像内在的可编辑性:每个图层都可以独立操作,而不会影响其他内容。同时,这种分层结构天然支持高保真的基本编辑操作,例如缩放、移动和重新着色。通过将不同元素物理地隔离到不同的图层中,我们的方法实现了高保真的编辑效果。Qwen-lmage-Layered技术报告:ht…- 2
- 0
❯
购物车
优惠劵
搜索
扫码打开当前页

联系我们
返回顶部
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!
























