2天狂拦2300star，AnimateAnyone到底是什么来头

青稞2023-12-022024-03-12

周末加班干活了～

Project page: https://humanaigc.github.io/animate-anyone/
Code: https://github.com/HumanAIGC/AnimateAnyone
Arxiv: https://arxiv.org/pdf/2311.17117.pdf
Youtube Video: https://www.youtube.com/watch?v=8PCn5hLKNu4

前言

Animate Anyone是阿里巴巴通义实验室XR Lab最新推出的成果，只需要单张图片和Openpose动作就可以让图片动起来并保持稳定性。

具体来说，Animate Anyone是基于Diffusion model (扩散模型结构)来进行pose2video的生成，通过如2D openpose的姿态骨架skeleton，来引导(guide)网络生成和参考图像reference image一致的角度动态效果。

Animate Anyone也是第一个在Pose2Video领域生成角色动画达到80分成绩的方法。Twitter上各路大V都在转。

在Reddit的SD channel热度排名第1！

https://www.reddit.com/r/StableDiffusion/comments/187csur/new_techanimate_anyone_consistent_and/

核心贡献

ReferenceNet： ReferenceNet这个组件能够将参考图(reference image)中的细节，集成(integrate)通过spatial attention(空间attention机制)到diffusion model。此网络是保持复杂的外观特征与reference image一致性的关键。

青稞🤔：这个spatial attention和Stable Diffusion (Latent Diffusion Model)中的self attention机制很像，主要是通过self attention/spatial attention对加噪图像特征的融合，来把参考图像的特征和控制视频动态的2D skeleton pose图像融合在一起。

Pose Guider： 将姿态控制信号集成到去噪过程(denoising process)中的轻量级组件，确保角色运动的可控性和连续性。

青稞🤔：Pose Guider这种设计是Video Diffusion model中的一个比较常见的设计，但是, 虽然设计本身并不复杂，能够通过Pose Guider生成稳定连续的角色动画/视频也是很难的。之前的工作解决的也都不是很理想。可以说，AnimateAnyone第一次把Pose2Video做到了80分的水平！

Temporal attention Layer： 其作用是确保视频帧间的平滑过渡和连续性，解决角色动画生成时的稳定性(stability)和连续性(continuity)。

另外,，还想和大家分享下作者对于训练策略的思考：Animate Anyone首先是基于Diffusion text-to-image框架进行修改，把prompt的特征(bs, 77, 768)部分改成clip特征，然后适配多帧输入以用于视频生成。

其训练策略是二阶段(two-stage)的，stage 1阶段重点研究没有时间层的单个视频帧(single video frame)，在得到一个稳定的基模后，在stage 2阶段引入temporal layer，相当于在stage 1阶段的基础上进一步finetune和优化模型来进行video synthesis(视频合成)。