YOLO-World:基于视觉语言模型的实时开放词汇物体检测


Paper:YOLO-World: Real-Time Open-Vocabulary Object Detection
Abs:https://arxiv.org/abs/2401.17270
Code:https://github.com/AILab-CVC/YOLO-World

在自然图像与视频目标检测与识别领域,传统方法通常在预定义类别的数据集上训练,无法识别数据集中未出现的目标类别,缺乏零样本检测能力,识别能力有限。

YOLO-World:基于视觉语言模型的实时开放词汇物体检测

来自Tencent AI Lab、ARC Lab、Tencent PCG 以及华中科技大学的研究者们在 CVPR 2024 上提出了基于视觉语言建模的开放词汇YOLO-World模型,并探索针对YOLO检测器的大规模数据预训练方法,赋予 YOLO 模型零样本检测能力与语言理解能力,在推理速度和零样本检测精度上均领先先前工作。

YOLO-World:基于视觉语言模型的实时开放词汇物体检测

YOLO-World模型目前已经在腾讯内部多项业务中落地,并与海外多家公司达成商业合作。

前沿技术新闻资讯

Google AI发布Gemini 2.0 Flash Thinking 模型

2025-2-11 8:36:29

前沿技术新闻资讯

基于大模型的高效新闻推荐系统的实践方案

2025-2-11 8:55:58

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
购物车
优惠劵
搜索