当被问及能否当实时滤镜用时,作者表示:目前模型还很大,做到实时还需要一些工程努力。
论文概览
- 论文链接:https://arxiv.org/pdf/2209.11224.pdf
- 项目链接: https://github.com/williamyang1991/VToonify
- demo 链接: https://huggingface.co/spaces/PKUWilliamYang/VToonify
- colab 链接:https://colab.research.google.com/github/williamyang1991/VToonify/blob/master/notebooks/inference_playground.ipynb
生成高质量的艺术人像视频是计算机图形学和计算机视觉中的一个重要任务。虽然基于强大的 StyleGAN,研究者们已经提出了一系列成功的人像卡通模型,但这些面向图像的方法在应用于视频时存在明显的局限性,如固定帧大小、人脸对齐要求、缺少非面部细节和时间不一致等。
也就是说,一个高效的视频卡通化方法需要克服以下挑战:
- 能够处理未对齐的人脸和不同的视频大小,以保持运动自然。增大视频尺寸或使用广角可以捕捉更多的信息,防止人脸移动出帧;
- 为了匹配目前广泛使用的高清设备,生成的视频要有足够高的分辨率;
- 要想构建一个实用的用户交互系统,新方法应该提供灵活的风格控制,让用户调整并选择自己喜欢的风格。
为了满足以上需求,研究者们提出了专门用于视频卡通化的混合框架——VToonify。
具体来说,他们首先分析了 StyleGAN 的平移同变性,这是克服「固定帧大小」局限性的关键。如下图 2(c)所示,VToonify 结合了基于 StyleGAN 的框架和图像转换框架的优点,实现了可控的高分辨率人像视频风格转换。
他们采用[Pinkney and Adler 2020] 的 StyleGAN 架构进行高分辨率的视频风格转换,但通过删除固定大小的输入特征和低分辨率层来调整 StyleGAN,构建了一个全新的全卷积编码器 - 生成器架构,类似于图像转换框架中的架构,支持不同的视频大小。
除了原始的高级风格代码外,他们还训练编码器提取输入帧的多尺度内容特征作为生成器的附加内容条件,以便在风格转换过程中更好地保存帧的关键视觉信息。
他们遵循 [Chen et al. 2019; Viazovetskyi et al. 2020] 的做法,在合成的配对数据上蒸馏 StyleGAN。
此外,他们还进一步提出了基于单一合成数据模拟相机运动的闪烁抑制损失来消除闪烁。
因此,VToonify 无需真实数据、复杂的视频合成和显式的光流计算,就可以学习快速连贯的视频转换。
不同于 [Chen et al. 2019; Viazovetskyi et al. 2020] 中标准的图像转换框架,VToonify 将 StyleGAN 模型合并到生成器中,以蒸馏数据和模型。因此,VToonify 继承了 StyleGAN 的风格调整灵活性。通过重用 StyleGAN 作为生成器,研究者只需要训练编码器,大大减少了训练时间和训练难度。
根据上述做法,研究者提出了基于两个代表性 StyleGAN 主干——Toonify [Pinkney and Adler 2020] 和 DualStyleGAN [Yang et al. 2022]——的两种 VToonify 变体,分别用于 collection-based 和 exemplar-based 的人像视频卡通化。
前者根据数据集的整体风格对人脸进行风格化,而后者则使用数据集中的一张图像来指定更精细的风格,如图 1 的右上角所示。