YOLO-World：基于视觉语言模型的实时开放词汇物体检测

发表于2024-07-23🎥 观看直播

YOLO-World：基于视觉语言模型的实时开放词汇物体检测

青稞2024-07-23

7月23日晚7点，青稞Talk第16期，华中科技大学博士生程天恒，将直播分享《YOLO-World：基于视觉语言模型的实时开放词汇物体检测》。

主讲嘉宾

程天恒，华中科技大学博士生；2019年获得华中科技大学（HUST）电子信息与通信专业的学士学位；研究兴趣包括计算机视觉、通用物体检测与分割以及多模态视觉模型，在人工智能与计算机视觉的顶级会议上发表学术论文11篇。

主题提纲

YOLO-World：基于视觉语言模型的实时开放词汇物体检测

1、迈向更通用的开放词汇物体检测
2、YOLO-World：模型设计与大规模数据训练
3、YOLO-World微调与应用实践
4、多模态大模型时代的物体检测

成果链接

Paper：YOLO-World: Real-Time Open-Vocabulary Object Detection
Abs：https://arxiv.org/abs/2401.17270
Code：https://github.com/AILab-CVC/YOLO-World

直播时间

7月23日（周二）19:00-20:00

喜欢这篇文章的人也看了

Mini-Gemini：挖掘多模态视觉语言大模型的潜力

MiniCPM-V：端侧可用的GPT-4V级多模态大模型

SEED-Story：生成长篇图文故事的多模态大型语言模型

mPLUG-Owl3：探索长序列模型架构的通用多模态大模型

Satori：通过训练LLM做自回归搜索来增强推理能力

PRIME：结合隐式过程奖励的强化学习