VILA^2:视觉语言模型能力的自我提升


青稞Talk 第二十九期

主讲嘉宾

方云浩,本科毕业于浙江大学,硕士毕业于UCSD(苏昊教授),自24年2月起在Nvidia VILA团队实习(陆垚博士、韩松教授)。主要科研方向是大模型相关的1. 推理能力(通过探索提升推理上限: Unleashing the Creative Mind;通过演绎验证获得可靠思维链: Deductive Verification for Chain-of-thought Reasoning);2. 推理、训练高效性(CLIP Distillation with OOD Generalization; VILA^2: VLM Augmented VLM for Self-improvement)。

主题提纲

VILA^2 : 视觉语言模型能力的自我提升

1、视觉语言模型研究概述
2、基础模型 VILA 的初衷及架构解析
3、基于自增强与专家增强的 VILA^2
4、探讨VILA-U、LongVILA 以及 World Model Benchmark

成果链接

VILA^2 :https://arxiv.org/pdf/2407.17453
https://github.com/NVlabs/VILA
https://github.com/mit-han-lab/vila-u
https://github.com/NVlabs/VILA/blob/main/LongVILA.md

直播时间

11月23日(周六)11:00-12:00