多模态技术

    • 成果分享 | “读懂地图”的多模态大模型MapReader
    • ColPali文档页面多模态嵌入模型:实现思路及其实践脚本解读
    • 多模态代理:CrewAI、Groq 和 Replicate AI 的创新融合
    • NotebookLM:一款基于长文本理解/多模态大模型设计的Google笔记应用
    • AIGC应用案例-视觉设计与UI设计
    • 大模型能做对数学题吗?
    • 实测豆包AI视频模型Seaweed,击败Sora的含金量到底有多少?
    • Meta发布Llama 3.2,Llama 终于能看见了!
    • Llama 3.2:AI视觉革新,手机也能跑大模型
    • 一文彻底搞懂多模态 – 视觉大模型
    • 全面介绍!多模态数据与大模型
    • 将PDF文档转换成音频播客、讲座或摘要PDF2Audio
    • 【深入浅出RAG】通过LlamaCloud打造多模态RAG
    • 探索阿里通义千问的 Qwen2-VL:新一代视觉语言模型本地体验实战大全
    • 一文彻底搞懂多模态 – 基础知识
    • 忘掉Sora吧,快手最新的可灵1.5Pro让国外陷入疯狂!
    • Ollama官方已支持MiniCPM-V 2.6模型
    • 探索 Mini – Omni:开启语音多模态交互新征程
    • 探索新一代大模型代理(LLM agent)及其架构
    • 阿里 mPLUG-Owl3 震撼登场:通用多模态大模型的创新风暴来袭
    • Llama 3.1 Omni:颠覆性的文本与语音双输出模型
    • 阿里8B模型拿下多页文档理解新SOTA,324个视觉token表示一页,缩减80%
    • Mac上运行微软最新Phi-3.5-mini大模型+开发Agent
    • 使用 Dify 和 AI 大模型理解视频内容:Qwen 2 VL 72B
    购物车
    优惠劵
    搜索