青稞Talk 17期！SEED-Story：生成长篇图文故事的多模态大型语言模型

青稞2024-07-242024-07-24

生成图文并茂的多模态故事已成为一个具有广泛应用前景的任务。然而，这一任务带来了巨大的挑战，因为它需要模型理解文本和图像之间复杂的相互关系，并具备生成长序列连贯且情境相关的文本和视觉内容的能力。

来自香港科技大学（广州）、腾讯的研究者提出了SEED-Story，这是一种利用多模态大语言模型（MLLM）生成长序列多模态故事的新方法。该模型基于MLLM强大的理解能力，预测文本token和视觉token，这些token随后通过visual de-tokenizer处理，生成具有一致角色和风格的图像。推理阶段，研究者们提出了多模态注意力汇聚机制，使得能够高效自回归地生成长达25个序列（训练时仅为10个序列）的故事。

此外，研究者们还推出了一个名为StoryStream的大规模高分辨率数据集，用于训练模型并在各个方面定量评估多模态故事生成任务。

1
2
3

Paper：SEED-Story: Multimodal Long Story Generation with Large Language Model
arXiv：https://arxiv.org/abs/2407.08683
Code：https://github.com/TencentARC/SEED-Story

7月30日晚7点，青稞Talk第17期，香港科技大学（广州）博士生杨帅，将直播分享《SEED-Story：生成长篇图文故事的多模态大型语言模型》。