VITA:开源交互式多模态基础大模型


青稞Talk 第二十六期

10月14日19点,青稞Talk 第26期,VITA 第一作者,南京大学智能科学与技术学院研究员、助理教授、博导傅朝友,将直播分享《VITA:开源交互式多模态基础大模型》。

主讲嘉宾

傅朝友,南京大学智能科学与技术学院研究员,助理教授,博导。2022年博士毕业于中国科学院自动化研究所,2022年-2024年在腾讯优图实验室担任高级研究员,作为Technology & Project Leader从事学术研究和工程落地工作。已发表JCR-1区期刊/CCF-A类会议论文共20余篇,包括两篇一作IEEE TPAMI,研究成果GitHub开源项目共计获得超过1.3万次Star。研究方向为多模态大模型、大语言模型、生物特征识别,代表性工作包括Awesome-MLLM、MME、Video-MME、MME-RealWorld和VITA。长期担任CVPR、ICCV、ECCV、NeurIPS、ICLR、ICML、IEEE TIP等国际顶级期刊和会议的审稿人。曾获中国科学院院长特别奖、IEEE Biometrics Council最佳博士学位论文奖、北京市&中科院优秀博士学位论文、2022年“阿里星”计划-P7、2022年腾讯“技术大咖”计划-T10、CVPR 2023 Outstanding Reviewer。

主题提纲

VITA:开源交互式多模态基础大模型

1、多模态大模型研究概述
2、VITA 模型解析
  - 基于 Mixtral 8x7B 的三阶段训练流程
  - 非唤醒交互和语音打断交互的实现
  - 性能评估
3、VITA 的部署应用及未来工作探讨

成果链接

Paper:VITA: Towards Open-Source Interactive Omni Multimodal LLM
Abs:https://arxiv.org/pdf/2408.05211
Demo:https://vita-home.github.io/
Code:https://github.com/VITA-MLLM/VITA

直播时间

10月14日(周一)19:00 - 20:00