青稞Talk 04预告！Mini-Gemini：挖掘多模态视觉语言大模型的潜力

青稞2024-04-192024-04-19

尽管 VLM 取得了进步，促进了基本的视觉对话和推理，但与 GPT-4 和 Gemini 等高级模型相比，性能差距仍然存在。那如何在学术环境中以可接受的成本推动VLMs接近成熟模型呢？

来自香港中文大学的贾佳亚团队新提出了多模态大模型 Mini-Gemini，堪比 GPT-4 + DALL-E 3 王炸组合。

在这项工作中，研究者主要探究了目前多模态模型的潜力，并从三个方面进行提升：

对高清细节信息的挖掘
多模态模型训练数据的质量
与生成模型的结合

具体来说，研究者通过引入双分支视觉编码器，在保持 LLM 计算效率的情况下拓展对高清图像的理解。并通过优化训练数据的方式来提升多模态模型的性能和对生成任务的支持，从而在保证多模态模型基础性能的同时实现图像理解、推理和生成的统一。实验表明在多种 zero-shot 的榜单上超越现有开源甚至闭源商业模型，并能够支持从 2B 至 34B 的多种大语言基座模型。

Github 地址：https://github.com/dvlab-research/MiniGemini  
Demo 地址: http://103.170.5.190:7860/  
论文地址：https://arxiv.org/pdf/2403.18814.pdf  
模型地址：https://huggingface.co/collections/YanweiLi/mini-gemini-6603c50b9b43d044171d0854  
数据地址：https://huggingface.co/collections/YanweiLi/mini-gemini-data-660463ea895a01d8f367624e

4月24日晚7点，青稞社区组织【青稞Talk】第四期，邀请到 Mini-Gemini 一作、香港中文大学在读博士李彦玮参与，分享《Mini-Gemini：挖掘多模态视觉语言大模型的潜力》。

直播信息

分享嘉宾

李彦玮，香港中文大学计算机科学与工程系四年级博士生，师从贾佳亚教授；主要关注方向为计算机视觉和多模态模型；在CVPR、ICCV、ECCV、NeurIPS、TPAMI等会议及期刊上发表20篇以上文章，其中一作10篇，Google Scholar引用1600+；曾获微软奖学金提名，并作为一作获得Microsoft COCO比赛亚军；担任CVPR、ICCV、ECCV、NeurIPS、ICML、ICLR、IJCV等会议或期刊审稿人。