青稞Talk 03预告!从 3D LLM 到 MultiPLY ,3D 具身基础模型的构建

大型语言模型(LLM)和视觉语言模型(VLM)在理解和生成语言方面表现出色,但它们并不以 3D 物理世界为基础,更不用说在更丰富的 3D 具身环境中探索和互动了。

加州大学洛杉矶分校的洪艺宁博士及来自 MIT-IBM Watson AI Lab 等研究人员在最新的成果中开发了 3D 具身基础模型,致力于构建能够主动探索和与 3D 物理世界互动。这些模型促进了与3D空间的动态互动,融入了空间关系、可利用性、物理、布局、多感官学习等基本具身智能概念。

在 NeurIPS 2023 的 Spotlight 成果 3D-LLM 中,她们将 3D 世界注入大型语言模型中,用 3D 点云及其特征作为输入,并执行各种 3D 相关任务,包括字幕、密集字幕、3D 问答、任务分解、3D 基础、3D 辅助对话、导航等。

20240415121951.png

1
2
3
paper:3D-LLM: Injecting the 3D World into Large Language Models
arXiv:https://arxiv.org/abs/2307.12981
code:https://github.com/UMass-Foundation-Model/3D-LLM

同时,她们在 CVPR 2024 上最新提出的多模态具身智能大模型 MultiPLY,让大模型加持下的智能体,不仅有了听觉视觉,还有了触觉等多种感官能力。通过智能体与 3D 环境交互,MultiPLY 呈现了大模型多感官能力,无缝地连接了语言、动作和感知!

1
2
3
paper:MultiPLY: A Multisensory Object-Centric Embodied Large Language Model in 3D World
arxiv:https://arxiv.org/abs/2401.08577
code:https://github.com/UMass-Foundation-Model/MultiPLY

4月19日早9点,青稞社区组织【青稞Talk】第三期,邀请到 3D-LLM 和 MultiPLY 一作、加州大学洛杉矶分校在读博士洪逸宁参与,分享《从 3D LLM 到 MultiPLY ,3D 具身基础模型的构建》。

直播信息

分享嘉宾

洪逸宁,加州大学洛杉矶分校在读博士,MIT-IBM沃森人工智能实验室研究员;在上海交通大学获得了学士学位;研究兴趣包括具身智能、3D大型语言模型和机器推理,在NeurIPS、CVPR、ICCV、AAAI等会议上发表了多篇第一作者的论文;曾获得2022年百度奖学金。

主题提纲

从 3D LLM 到 MultiPLY ,3D 具身基础模型的构建

提纲:

1、具身智能大模型的研究 2、引入 3D 点云特征的大型语言模型 3D-LLM 3、多感官的多模态具身智能大模型 MultiPLY 4、模型的使用及未来方向探索研究

直播时间

4月19日(周五)9:00 - 10:00

参与方式

Talk 将在青稞·知识社区上进行,扫码对暗号:“0419”,报名交流! alt text