青稞Talk 09预告!具身多模态大模型的视觉表征预训练研究
青稞Talk 09预告!具身多模态大模型的视觉表征预训练研究
青稞对于具身多模态模型而言,良好的视觉表征能力是其理解环境的基础,它的效果很大程度上依赖于视觉表征的质量和表现力,因此视觉表征预训练方法尤为重要。考虑到机器人数据的稀缺性,可利用大规模人类视频数据集来提取可泛化特征,用于视觉驱动的运动控制策略学习。
上海人工智能实验室青年研究员,OpenDriveLab具身智能方向负责人曾嘉等人在最新中稿 RSS 2024 的论文成果中,提出了一种视觉表征预训练方法LearningManipulation by Predicting Interaction (MPI)。
MPI 通过预测交互帧以及定位交互对象,使模型对于“如何交互”和“在哪里交互”有了更好地理解,增强了编码器捕捉操作过程中的行为模式及交互特征的能力。在多个下游机器人任务上,MPI 相比于 R3M、MVP、Voltron 等表征学习方法取得了显著的提升。
6月6日晚7点,青稞社区组织【青稞Talk】第九期,上海人工智能实验室青年研究员、OpenDriveLab具身智能方向负责人曾嘉博士,将直播分享《具身多模态大模型的视觉表征预训练研究》。
Talk信息
分享嘉宾
曾嘉,上海人工智能实验室青年研究员,OpenDriveLab具身智能方向负责人。博士毕业于上海交通大学。在国际知名会议与期刊RSS、CVPR、IEEE T-PAMI、IEEE JBHI等发表论文30余篇,其中一作及共一论文10篇。担任CVPR、ECCV、ICML等顶会审稿人。获中国博后基金面上资助、上海“超级博士后”。参与国家自然基金委项目、科技部2030新一代人工智能重大项目、上海市科委科研专项等。
主题提纲
具身多模态大模型的视觉表征预训练研究
提纲:
1、具身多模态大模型的研究分析
2、常见的视觉表征方法解析
3、面向机器人操作的视觉表征预训练方法 MPI
4、在下游机器人任务上的效果
直播时间
6月6日(周四)19:00 - 20:00
参与方式
Talk
将在青稞·知识社区上进行,扫码对暗号:"0606",报名交流!