多模态技术

    • Github揽获1.6K星!南大、腾讯发布VITA-1.5: 迈向GPT-4o级实时视频-语音交互
    • 2025 年10大AI 方向:高效推理、多模态等
    • 利用多模态RAG实现图文并茂的内容生成
    • 2025年开篇|AI Agent与多模态大模型:智能革命的新纪元
    • 多模态RAG技术:从语义抽取到VLM应用与规模化挑战
    • 戴上眼镜的Kimi能力超强,领先 o1 和 Gemini
    • Gemini 2.0 Flash Thinking:谷歌推出实验性多模态推理模型,在快速生成的同时展示详细的思考过程
    • 快手可灵1.6正式上线,他们又一次超越了自己。
    • GPT-4o掀起全模态热潮!一文梳理全模态大模型最新研究进展
    • 国家电网发布国内首个千亿级多模态电力行业大模型
    • 初创公司 Odyssey 推出 AI 工具 Explorer了
    • 利用 Gemini 构建 PDF 文档 AI 管道:原理、实现与应用(含代码)
    • 一手实测豆包新发布的视觉理解大模型,他们真的卷起飞了。
    • 百度飞桨:多模态大模型技术进展与产业应用实践
    • Kimi发布视觉思考模型k1,会看图做题,还能看图定位你在哪里
    • RAG用于翻译实现思路及多模态模型用于文档理解的几个核心问题
    • Alibaba出品:OmniParser通用文档复杂场景下OCR抽取
    • Salesforce AI:多模态训练技巧,超有用!
    • 内容AI: 目标驱动的图像生成
    • AI大模型实现图片OCR识别
    • 使用Llama 3.2-Vision多模态LLM与您的图像聊天
    • 腾讯微信推出大模型 POINTS 1.5 了
    • 为什么生成式AI不擅长同时做两件事?
    • Milvus×Florence:一文读懂如何构建多任务视觉模型
    购物车
    优惠劵
    搜索