多模态技术

    • 刚刚,李飞飞最新成果发布,手机也能跑亿级粒子的 3D 世界了|附体验地址
    • 豆包「打电话」升级 Seeduplex:周围再吵,只认准你的声音
    • 美团发布原生多模态 LongCat-Next:当视觉和语音成为AI的母语
    • 全解读|智谱 GLM-5V-Turbo 发布,多模态 Coding 基模
    • GLM-5V-Turbo:多模态Coding,图像即代码
    • 突破零样本TTS音色克隆上限:LongCat-AudioDiT 的声音克隆艺术
    • 千人千面,精控调色,更懂你的Wan2.7-Image来了
    • 震惊!即梦推出 CLI,Agent 一行命令生成 Seedance 2.0 视频,AI 视频井喷
    • 千问发布Qwen3.5-Omni全模态模型,超越Gemini3.1 Pro?附实测~
    • Google 和 Cohere 同日发布音频 AI 模型
    • 让“龙虾”帮你自动赚钱!OpenClaw Seedance 2.0 视频生成全攻略
    • 通用语音识别模型VibeVoice ASR:长达60分钟音频一次性“直出”结构化转写
    • Agent 语音交互如何更稳、更快?一次高并发消息链路优化实践
    • KDD 2026 | 小红书内容审核:Hi-Guard 让内容治理“知其然,更知其所以然”
    • 零帧起手 Codex × Figma 双向工作流实操
    • Seedance 2.0 正式发布
    • 文心大模型5.0正式版,上线!
    • NanoBanana 2.0 来了, 对比前一代和即梦 5.0 lite,它依旧强的离谱
    • Seedance 2.0上线火山方舟体验中心,API即将开放
    • Google 发布首个全模态 Embedding 2 模型,文本图片音视频 PDF 统一到一个向量空间
    • DeepSeek-OCR 2 来了,让 AI 也能像人一样,带着逻辑去看图
    • 月之暗面Kimi正式发布官方编程工具:Kimi Code
    • Gemini Embedding 2把多模态信息整合同一向量空间了,还需要多向量列吗?
    • 一篇文章讲清楚:到底什么是NotebookLM?除了PPT,它还能做啥?
    购物车
    优惠劵
    搜索