InternVL 2.0:通过渐进式策略扩展开源多模态大模型的性能边界

8月6日晚7点,青稞Talk第18期,香港中文大学博士后、上海人工智能实验室青年科学家、“书生”系列视觉基础模型核心开发者王文海,将直播分享《InternVL 2.0:通过渐进式策略扩展开源多模态大模型的性能边界》。他将和大家一起探讨图文多模态大模型的基本原理和技术,如何利用开源套件构建强大的多模态大模型,研究如何通过渐进式策略扩展开源多模态模型的性能边界,以缩小开源模型与商业闭源模型在多模态理解方面的能力差距。

主讲嘉宾

王文海,南京大学博士,香港中文大学博士后,上海人工智能实验室青年科学家,研究方向为视觉基础模型研究,上海人工智能实验室“书生”系列视觉基础模型核心开发者。主要成果发表在顶级期刊和会议TPAMI、CVPR、ICCV、ECCV、ICLR、NeurIPS等共43篇论文,其中19篇为一作/共一/通信。研究成果获得了总共超1.8万次引用,单篇最高引用超3000次。研究成果分别入选CVPR 2023最佳论文,世界人工智能大会青年优秀论文奖,CVMJ 2022最佳论文提名奖,两次入选ESI高被引论文(前1%)和热点论文(前0.1%),6次入选Paper Digest CVPR、ICCV、NeurIPS、ECCV年度十大最具影响力论文,一次入选Zeta Alpha 2022年百篇最高引AI论文。入选斯坦福大学2023年度全球前2%顶尖科学家,世界人工智能大会云帆奖,CSIG优博提名。担任CSIG VI编委,IJCAI 2021的高级程序委员会委员,以及TPAMI、IJCV、CVPR、ICCV、ECCV等多个顶级国际会议/期刊的程序委员会委员/审稿人。

主题提纲

InternVL 2.0:通过渐进式策略扩展开源多模态大模型的性能边界

  • 1、从LLM到VLLM,多模态大模型的基本原理和技术
  • 2、如何利用开源套件构建强大的多模态大模型
  • 3、基于渐进式对齐训练策略实现的视觉基础模型
  • 4、开源、闭源模型能力探讨及InternVL 2.0 的使用

成果链接

Code:https://github.com/OpenGVLab/InternVL

直播时间

7月30日(周二)19:00-20:00