Mini-Gemini:挖掘多模态视觉语言大模型的潜力


青稞Talk 第四期

alt text

4月24日晚7点,青稞社区组织【青稞Talk】第四期,邀请到 Mini-Gemini 一作、香港中文大学在读博士李彦玮参与,分享《Mini-Gemini:挖掘多模态视觉语言大模型的潜力》。

分享嘉宾

李彦玮,香港中文大学计算机科学与工程系四年级博士生,师从贾佳亚教授;主要关注方向为计算机视觉和多模态模型;在CVPR、ICCV、ECCV、NeurIPS、TPAMI等会议及期刊上发表20篇以上文章,其中一作10篇,Google Scholar引用1600+;曾获微软奖学金提名,并作为一作获得Microsoft COCO比赛亚军;担任CVPR、ICCV、ECCV、NeurIPS、ICML、ICLR、IJCV等会议或期刊审稿人。

主题提纲

Mini-Gemini:挖掘多模态视觉语言大模型的潜力

1、多模态大模型研究概述
2、多模态模型能力的构建路径
3、增强多模态视觉语言模型能力的 Mini-Gemini
4、2B至34B大语言基座模型上的性能及应用实践

成果链接

Github 地址:https://github.com/dvlab-research/MiniGemini
Demo 地址: http://103.170.5.190:7860/
论文地址:https://arxiv.org/pdf/2403.18814.pdf
模型地址:https://huggingface.co/collections/YanweiLi/mini-gemini-6603c50b9b43d044171d0854
数据地址:https://huggingface.co/collections/YanweiLi/mini-gemini-data-660463ea895a01d8f367624e

直播时间

4月24日(周三)19:00 - 20:00