VILA^2:视觉语言模型能力的自我提升

2024-11-23

青稞Talk 第二十九期

主讲嘉宾

方云浩，本科毕业于浙江大学，硕士毕业于UCSD（苏昊教授），自24年2月起在Nvidia VILA团队实习（陆垚博士、韩松教授）。主要科研方向是大模型相关的1. 推理能力（通过探索提升推理上限: Unleashing the Creative Mind；通过演绎验证获得可靠思维链: Deductive Verification for Chain-of-thought Reasoning）；2. 推理、训练高效性（CLIP Distillation with OOD Generalization; VILA^2: VLM Augmented VLM for Self-improvement）。

主题提纲

VILA^2 : 视觉语言模型能力的自我提升

1、视觉语言模型研究概述
2、基础模型 VILA 的初衷及架构解析
3、基于自增强与专家增强的 VILA^2
4、探讨VILA-U、LongVILA 以及 World Model Benchmark

成果链接

VILA^2 :https://arxiv.org/pdf/2407.17453
https://github.com/NVlabs/VILA
https://github.com/mit-han-lab/vila-u
https://github.com/NVlabs/VILA/blob/main/LongVILA.md

直播时间

11月23日（周六）11:00-12:00