mPLUG-Owl3:探索长序列模型架构的通用多模态大模型
发表于🎥 观看直播

mPLUG-Owl3:探索长序列模型架构的通用多模态大模型
青稞9月10日19点,青稞Talk 第22期,阿里巴巴通义实验室高级算法工程师、华东师范大学博士叶加博,将直播分享《mPLUG-Owl3:探索长序列模型架构的通用多模态大模型》。
主讲嘉宾
叶加博,华东师范大学博士,阿里巴巴通义实验室高级算法工程师,参与通义多模态大模型mPLUG家族的研发,包含多模态底座mPLUG系列,多模态大语言模型mPLUG-Owl系列以及多模态文档理解大模型mPLUG-DocOwl系列。其中多模态文档理解工作mPLUG-DocOwl首次提出图像切分策略解决大模型高分辨率图像理解问题,成为前沿多模态大模型通用组件。
主题提纲
mPLUG-Owl3:探索长序列模型架构的通用多模态大模型
- 1、长视觉内容理解对多模态大模型的挑战
- 2、mPLUG-Owl3 模型架构及训练解析
- Hyper-Attention
- 三阶段训练范式
- 3、mPLUG-Owl3 评估测试及应用实践
成果链接
- Paper:mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal Large Language Models
- Abs:https://arxiv.org/abs/2408.04840
- Code:https://github.com/X-PLUG/mPLUG-Owl/tree/main/mPLUG-Owl3
直播时间
9月10日(周二)19:00-20:00