多模态技术

    • 多模态大模型数据处理策略总结:兼看RAG增强编程语言翻译任务的简单方案
    • 利用AI进行视频与文本处理:技术流程实现与应用场景分析
    • 只需将感知推理能力拆分,2B大模型就能战胜20B!国产新框架高效处理视觉任务
    • Agent | 清华提出智能体IoA新框架:编织异构代理网络,实现协作智能
    • 微软推出Glyph-ByT5-v2,支持10种语言高精度文字海报生成
    • 腾讯新研究Follow-Your-Emoji:可生成面部说话视频的真人、卡通、雕塑、动物…
    • 万字长文分享快手 Kolors 可图大模型应用实践
    • 大模型创业:体感温度与实际温度
    • 腾讯SEED-Story:生成丰富、叙事连贯及风格一致图文故事的大模型
    • 【LLM】通过文档截图嵌入统一多模态检索
    • gpt-4o的视频交互功能,咱也试试,本地部署实现,挺好玩的
    • ChartBench 面向复杂图表的认知与推理评测数据集
    • Ferret系列之Ferret-UI:用多模态大模型给手机UI理解插上翅膀
    • Kosmos-2.5 | 微软提出多模态阅读模型,让机器轻松驾驭文本密集图像
    • AGI|基于Joint BERT模型的意图识别技术实践
    • 可灵:快手视频生成大模型
    • ChartGemma:基于真实图表数据的图表理解与推理模型
    • Nature:人工智能出病理报告,准确率高达89.5%!
    • 浅谈AI生成视频在金融领域的应用
    • 探索AI智能体Agent的核心架构:记忆、工具与行动
    • 从AIGC短剧到金融、零售应用,视频生成大模型价值几何?
    • 沉浸式体验:Runway Gen-3 Alpha带你进入神奇的模拟场景!
    • Stable Diffusion中CFG有啥用?
    • 专访 LanceDB 创始人:多模态 AI 需要下一代数据基建
    购物车
    优惠劵
    搜索