多模态技术

    • 刚刚,DeepSeek又探索新架构了,开源OCR 2
    • 构建物理 AI 的引擎:NVIDIA Cosmos
    • 多模态RAG不止知识问答:文搜图与图搜图的四种实现方案
    • Pulsar特性在AI场景中的使用
    • 多模态检索新突破!Qwen3-VL-Embedding/Reranker AI 真正“看懂“你在搜什么,从图片到视频全拿下!
    • 多模态文档解析模型进展:UNIREC-0.1B架构、数据情况、实际测试
    • DeepSeek OCR + mHC 将开启多模态“信息动力学”新范式
    • Qwen3-VL-Embedding系列上新:探索统一多模态表征与排序
    • NVIDIA Audio2Face-3D 实时语音驱动面部动画最新部署指南
    • 阿里突然开源Live Avatar!虚拟人进入“无限续帧时代”
    • 蓝色光标×火山引擎:用AI实现多模态内容创作自由
    • 20年过去了,大厂们又开始卷输入法了。
    • 断网条件下使用本机AI助手软件实现Excel表格转换为机器可理解的Markdown格式
    • 告别表格错行与手写噩梦:Mistral OCR 3 深度解析
    • 【一键部署系列】|09|TTS|把TTS流式延迟从2秒干到51毫秒,提升40倍的极限优化实战
    • 通信工程CAD图纸智能化,PaddleOCR-VL+ERNIE-4.5联手凯通科技实现“感知-决策-知识”闭环
    • 零成本!我用 PaddleOCR API 做了一款视频字幕提取神器
    • 用一张12GB 显存的显卡本地部署 DeepSeek-OCR
    • 京东推出JoyVoice,解决多说话人语音合成难题
    • 我们被文本框困住了
    • “基于多模态大模型的智能保险理赔系统”荣获上海金融创新奖
    • 全模态大模型部署,vLLM-Omni 来了,100%开源
    • Qwen-lmage-Layered:图片分层 指哪改哪
    • 经同意的语音克隆
    购物车
    优惠劵
    搜索