青稞Talk 27预告！GenAD & Vista：构建通用可泛化的自动驾驶世界模型

青稞2024-10-132024-10-31

近期，OpenAI领投的1X Technologies发布了1X World Model，将世界模型的概念引入到了人形机器人中。世界模型在具身智能的多个子领域也得到了广泛的关注。世界模型是真实世界的模拟，可以预测不同控制指令对应的未来状态，并反馈给智能体的训练和决策过程。作为通往L5自动驾驶的关键技术之一，世界模型也在自动驾驶领域也受到了广泛的关注。

GenAD 由上海人工智能实验室 OpenDriveLab 联合香港和德国的多家高校机构，专为自动驾驶领域设计的一种可以理解和预测复杂驾驶场景动态的大规模视频预测模型。GenAD 不仅能够基于过去的观察预测未来的视频帧，还能根据文本指令或特定的行动轨迹条件生成视频，这使得它在模拟和规划等自动驾驶下游任务中具有广泛的应用潜力。GenAD 论文已被收录为 CVPR 2024 Highlight。

GenAD 是建立在目前最大的自动驾驶视频数据集 OpenDV-2K 之上，该数据集包含来自全球超过2000小时的自动驾驶视频，覆盖了多样化的地理、天气和交通场景，为模型提供了丰富的训练素材。

Vista 是 OpenDriveLab 最新推出的新一代的自动驾驶世界模型，其具有高度可泛化与可控性。与上一代自动驾驶世界模型 GenAD 相比，该工作在以下方面均具有优异性能提升：多样且高分辨率的未来驾驶场景、稳定的长时序预测结果、多模态的自车控制输入、任意场景的奖励（reward）评估。Vista 的论文已被 NeurIPS 2024 接收。

10月17日19点，青稞Talk 第27期，香港科技大学在读博士高深远，将直播分享《GenAD & Vista：构建通用可泛化的自动驾驶世界模型》。本次分享将着重介绍GenAD和Vista系列工作，为构建开放场景中通用可泛化的自动驾驶世界模型提供了一条可行的技术路线。

主讲嘉宾

高深远，香港科技大学在读博士，研究兴趣主要围绕具身场景中世界模型的构建及应用。曾在CVPR、NeurIPS、ECCV以第一作者身份发表多篇论文，并担任TPAMI、ICLR、NeurIPS、CVPR等期刊会议的审稿人。

主题提纲

GenAD & Vista：构建通用可泛化的自动驾驶世界模型

1、世界模型的概念及其重要性
2、GenAD和OpenDV大规模自动驾驶数据集
3、Vista：高保真且多样可控的通用自动驾驶世界模型
4、应用分析及未来研究探讨

成果链接

Paper：Vista: A Generalizable Driving World Model with High Fidelity and Versatile Controllability
Abs：https://arxiv.org/abs/2405.17398
Code：https://github.com/opendrivelab/vista

Paper：GenAD: Generalized Predictive Model for Autonomous Driving
Abs：https://arxiv.org/pdf/2403.09630