多模态技术

    • gpt-4o的视频交互功能,咱也试试,本地部署实现,挺好玩的
    • ChartBench 面向复杂图表的认知与推理评测数据集
    • Ferret系列之Ferret-UI:用多模态大模型给手机UI理解插上翅膀
    • Kosmos-2.5 | 微软提出多模态阅读模型,让机器轻松驾驭文本密集图像
    • AGI|基于Joint BERT模型的意图识别技术实践
    • 可灵:快手视频生成大模型
    • ChartGemma:基于真实图表数据的图表理解与推理模型
    • Nature:人工智能出病理报告,准确率高达89.5%!
    • 浅谈AI生成视频在金融领域的应用
    • 探索AI智能体Agent的核心架构:记忆、工具与行动
    • 从AIGC短剧到金融、零售应用,视频生成大模型价值几何?
    • 沉浸式体验:Runway Gen-3 Alpha带你进入神奇的模拟场景!
    • Stable Diffusion中CFG有啥用?
    • 专访 LanceDB 创始人:多模态 AI 需要下一代数据基建
    • 商汤大模型的「5o」交互,普通人如何和 AI 过一天?
    • 为医院装载“超级大脑”,商汤启动医疗多模态大模型赋能的智慧医院标杆联合共创
    • AI 赋能营销 | 拓展营销和创意潜能
    • 超强 AI 解析器:轻松处理文档、网页、音视频等 10 几种文档,高效清洗和组织你的数据!
    • 开源AI回答引擎的新时代:Morphic为你提供高效、准确的智能回答
    • 论文:大模型图表理解能力哪家强?CharXiv评估结果
    • 企业如何构建大模型营销体系:架构与实战
    • 实测:开源轻量化模型Gemma 2 在 A4000 GPU 上表现如何?
    • 多模态大型语言模型(MLLMs)在跨图像、视频和音频等多种任务中表现卓越
    • SpeechLLM:  分析音频演讲者情感的大模型
    购物车
    优惠劵
    搜索