青稞Talk 03预告！从 3D LLM 到 MultiPLY ，3D 具身基础模型的构建

青稞2024-04-152024-04-15

大型语言模型（LLM）和视觉语言模型（VLM）在理解和生成语言方面表现出色，但它们并不以 3D 物理世界为基础，更不用说在更丰富的 3D 具身环境中探索和互动了。

加州大学洛杉矶分校的洪艺宁博士及来自 MIT-IBM Watson AI Lab 等研究人员在最新的成果中开发了 3D 具身基础模型，致力于构建能够主动探索和与 3D 物理世界互动。这些模型促进了与3D空间的动态互动，融入了空间关系、可利用性、物理、布局、多感官学习等基本具身智能概念。

在 NeurIPS 2023 的 Spotlight 成果 3D-LLM 中，她们将 3D 世界注入大型语言模型中，用 3D 点云及其特征作为输入，并执行各种 3D 相关任务，包括字幕、密集字幕、3D 问答、任务分解、3D 基础、3D 辅助对话、导航等。

1
2
3

paper：3D-LLM: Injecting the 3D World into Large Language Models
arXiv：https://arxiv.org/abs/2307.12981
code：https://github.com/UMass-Foundation-Model/3D-LLM

同时，她们在 CVPR 2024 上最新提出的多模态具身智能大模型 MultiPLY，让大模型加持下的智能体，不仅有了听觉视觉，还有了触觉等多种感官能力。通过智能体与 3D 环境交互，MultiPLY 呈现了大模型多感官能力，无缝地连接了语言、动作和感知！

1
2
3

paper：MultiPLY: A Multisensory Object-Centric Embodied Large Language Model in 3D World
arxiv：https://arxiv.org/abs/2401.08577
code：https://github.com/UMass-Foundation-Model/MultiPLY