VITA：开源交互式多模态基础大模型

青稞2024-10-14

10月14日19点，青稞Talk 第26期，VITA 第一作者，南京大学智能科学与技术学院研究员、助理教授、博导傅朝友，将直播分享《VITA：开源交互式多模态基础大模型》。

主讲嘉宾

傅朝友，南京大学智能科学与技术学院研究员，助理教授，博导。2022年博士毕业于中国科学院自动化研究所，2022年-2024年在腾讯优图实验室担任高级研究员，作为Technology & Project Leader从事学术研究和工程落地工作。已发表JCR-1区期刊/CCF-A类会议论文共20余篇，包括两篇一作IEEE TPAMI，研究成果GitHub开源项目共计获得超过1.3万次Star。研究方向为多模态大模型、大语言模型、生物特征识别，代表性工作包括Awesome-MLLM、MME、Video-MME、MME-RealWorld和VITA。长期担任CVPR、ICCV、ECCV、NeurIPS、ICLR、ICML、IEEE TIP等国际顶级期刊和会议的审稿人。曾获中国科学院院长特别奖、IEEE Biometrics Council最佳博士学位论文奖、北京市&中科院优秀博士学位论文、2022年“阿里星”计划-P7、2022年腾讯“技术大咖”计划-T10、CVPR 2023 Outstanding Reviewer。

主题提纲

VITA：开源交互式多模态基础大模型

1、多模态大模型研究概述
2、VITA 模型解析
- 基于 Mixtral 8x7B 的三阶段训练流程
- 非唤醒交互和语音打断交互的实现
- 性能评估
3、VITA 的部署应用及未来工作探讨

成果链接

Paper：VITA: Towards Open-Source Interactive Omni Multimodal LLM
Abs：https://arxiv.org/pdf/2408.05211
Demo：https://vita-home.github.io/
Code：https://github.com/VITA-MLLM/VITA

直播时间

10月14日（周一）19:00 - 20:00