Mini-Gemini:挖掘多模态视觉语言大模型的潜力

4月24日晚7点,青稞社区组织【青稞Talk】第四期,邀请到 Mini-Gemini 一作、香港中文大学在读博士李彦玮参与,分享《Mini-Gemini:挖掘多模态视觉语言大模型的潜力》。

分享嘉宾

李彦玮,香港中文大学计算机科学与工程系四年级博士生,师从贾佳亚教授;主要关注方向为计算机视觉和多模态模型;在CVPR、ICCV、ECCV、NeurIPS、TPAMI等会议及期刊上发表20篇以上文章,其中一作10篇,Google Scholar引用1600+;曾获微软奖学金提名,并作为一作获得Microsoft COCO比赛亚军;担任CVPR、ICCV、ECCV、NeurIPS、ICML、ICLR、IJCV等会议或期刊审稿人。

主题提纲

Mini-Gemini:挖掘多模态视觉语言大模型的潜力

  • 1、多模态大模型研究概述
  • 2、多模态模型能力的构建路径
  • 3、增强多模态视觉语言模型能力的 Mini-Gemini
  • 4、2B至34B大语言基座模型上的性能及应用实践

成果链接

  • Github 地址:https://github.com/dvlab-research/MiniGemini
  • Demo 地址: http://103.170.5.190:7860/
  • 论文地址:https://arxiv.org/pdf/2403.18814.pdf
  • 模型地址:https://huggingface.co/collections/YanweiLi/mini-gemini-6603c50b9b43d044171d0854
  • 数据地址:https://huggingface.co/collections/YanweiLi/mini-gemini-data-660463ea895a01d8f367624e

直播时间

4月24日(周三)19:00 - 20:00

参与方式

Talk 将在青稞·知识社区上进行,扫码对暗号:"0424",报名交流!