青稞Talk 08预告！VideoBooth：文本和图像提示共同驱动的视频生成

青稞2024-05-262024-07-11

近年来，文生视频的发展取得了巨大的进步。文生视频一般是通过一段文本来驱动视频生成。在定制化生成的任务下，用户往往想要指定生成某一特定主体的视频。

然而仅仅使用文本不足以描述主体的所有特征，因此来自南洋理工大学 MMLab 实验室和上海人工智能实验室的研究人员，在 CVPR 2024 的最新成果中，提出了一种由文本和图像提示共同驱动的视频生成方法：VideoBooth。

1
2
3

paper：VideoBooth: Diffusion-based Video Generation with Image Prompts
arXiv：https://arxiv.org/pdf/2312.00777
code：https://github.com/Vchitect/VideoBooth

文本提供一些场景和动作的描述，而图像提供了主体的外貌。VideoBooth通过在粗粒度和细粒度两个维度把图像提示嵌入到Diffusion模型的方式，在主体一致性上取得了较好的结果。

5月29日晚7点，青稞社区组织【青稞Talk】第八期，南洋理工大学 MMLab 实验室在读博士姜瑜铭，将直播分享《VideoBooth：文本和图像提示共同驱动的视频生成》。

直播信息

分享嘉宾

姜瑜铭，南洋理工大学 MMLab 实验室在读博士生。导师为刘子纬(Ziwei Liu)教授和吕健勤(Chen Change Loy)教授。本科毕业于电子科技大学英才实验学院。主要研究方向为内容生成和复原，在CVPR、ICCV、ECCV、SIGGRAPH、TPAMI等期刊会议上发表多篇论文。博士期间获得过Google PhD Fellowship、ICLR Notable Reviewer等荣誉。