多模态技术

    • NanoBanana 2.0 来了, 对比前一代和即梦 5.0 lite,它依旧强的离谱
    • Seedance 2.0上线火山方舟体验中心,API即将开放
    • Google 发布首个全模态 Embedding 2 模型,文本图片音视频 PDF 统一到一个向量空间
    • DeepSeek-OCR 2 来了,让 AI 也能像人一样,带着逻辑去看图
    • 月之暗面Kimi正式发布官方编程工具:Kimi Code
    • Gemini Embedding 2把多模态信息整合同一向量空间了,还需要多向量列吗?
    • 一篇文章讲清楚:到底什么是NotebookLM?除了PPT,它还能做啥?
    • GenAI的多模态数据智能平台如何构建?
    • GLM-OCR技术细节全公开
    • Midjourney V8 正式上线:高清模式、文字无错、生成速度提升5倍
    • 我复刻了 Claude 刚发布的生成式 UI 交互!
    • Gemini Embedding 2:首个原生五模态 embedding 模型
    • 谷歌首个原生多模态向量模型发布:Agent 可以用文字搜图片、用图片搜视频了…
    • AI真人数字人语音对话性能优化实践总结
    • “思考”更深,生成更准|Seedream 5.0 Lite 发布
    • Qwen-Image-2.0发布:中文生图彻底不拧巴了
    • 对话离哲:企业AI告别「对话玩具」,多模态记忆是分水岭
    • Qwen-Image-2.0: 字字清晰,张张细腻
    • 多模态文档智能解析最新开源进展:GLM-OCR方法概述
    • 用AI做深度用户访谈,获蓝驰、高瓴、王慧文投资
    • DeepSeek-OCR 2重磅发布:让AI像人一样读懂复杂文档
    • LingBot-Depth 正式开源:让机器人“看清”物理世界
    • 一文带你读懂DeepSeek-OCR 2的细节!附实测!
    • DeepSeek出品,必是精品!DeepSeek-OCR 2发布:让LLM像人一样读懂复杂文档,效果超Gemini 3 Pro
    购物车
    优惠劵
    搜索