多模态技术

    • 一个神奇的视频生成 Skills,实测,狂喜
    • 你的一人公司品牌部,带着Image-2模型的lovart中文版来了
    • MNN-Sana-Edit-V2:端侧运行的图像漫画风编辑大模型
    • 刚刚!Codex 居然能直接画图了,OpenAI 凌晨甩出 Image 2.0
    • ChatGPT Images 2.0震撼发布!碾压谷歌Nano Banana,设计真要完了
    • PaddleOCR 3.5 发布:Web 端直用、文档一键转 Markdown,生态交互新体验
    • 用Claude Code剪视频,自动去口癖、加字幕、调色,完全免费开源
    • 刚刚,李飞飞最新成果发布,手机也能跑亿级粒子的 3D 世界了|附体验地址
    • 豆包「打电话」升级 Seeduplex:周围再吵,只认准你的声音
    • 美团发布原生多模态 LongCat-Next:当视觉和语音成为AI的母语
    • 全解读|智谱 GLM-5V-Turbo 发布,多模态 Coding 基模
    • GLM-5V-Turbo:多模态Coding,图像即代码
    • 突破零样本TTS音色克隆上限:LongCat-AudioDiT 的声音克隆艺术
    • 千人千面,精控调色,更懂你的Wan2.7-Image来了
    • 震惊!即梦推出 CLI,Agent 一行命令生成 Seedance 2.0 视频,AI 视频井喷
    • 千问发布Qwen3.5-Omni全模态模型,超越Gemini3.1 Pro?附实测~
    • Google 和 Cohere 同日发布音频 AI 模型
    • 让“龙虾”帮你自动赚钱!OpenClaw Seedance 2.0 视频生成全攻略
    • 通用语音识别模型VibeVoice ASR:长达60分钟音频一次性“直出”结构化转写
    • Agent 语音交互如何更稳、更快?一次高并发消息链路优化实践
    • KDD 2026 | 小红书内容审核:Hi-Guard 让内容治理“知其然,更知其所以然”
    • 零帧起手 Codex × Figma 双向工作流实操
    • Seedance 2.0 正式发布
    • 文心大模型5.0正式版,上线!
    购物车
    优惠劵
    搜索