研究者通过采用 DualStyleGAN 的风格控制模块 [Yang et al. 2022] 来调整编码器的特征,并精心设计数据生成和训练目标。VToonify 继承了 DualStyleGAN 灵活的风格控制和风格程度的调整,并进一步将这些功能扩展到视频(如图 1 右上角所示)
collection-based 人像视频风格转换
在 collection-based 人像视频风格转换中,研究者利用具有代表性的 Toonify 作为主干,它使用原始的 StyleGAN 架构,并仅以风格代码为条件。
如图 4 所示,collection-based VToonify 框架包含构建在 Toonify 之上的编码器和生成器。接受视频帧并生成内容特征,然后将这些特征输入以生成最终的风格化人像。与现有的使用整个 StyleGAN 架构的基于 StyleGAN 的框架不同,他们只使用最高级的 11 层 StyleGAN 来构建。正如 [Karras et al. 2019] 中所分析的,StyleGAN 的低分辨率层和高分辨率层分别主要捕获与结构相关的风格和颜色 / 纹理风格。因此,的主要任务是对内容特征进行上采样,并为它们渲染风格化的颜色和纹理。
exemplar-based 人像视频风格转换
在 exemplar-based 人像视频风格转换中,研究者使用 DualStyleGAN 作为主干,它向 StyleGAN 添加了一个外部风格路径,并以内部风格代码、外部风格代码和风格程度为条件。内部风格代码描述了人脸的特征,外部风格代码描述了艺术人像外部的结构和色彩风格。结构风格度_和颜色风格度_决定了所应用风格的强度。
exemplar-based 框架和上面提到的 collection-based 框架有很多共同之处,它通过两方面修改来实现灵活的风格控制,一是借助 Modified ModRe 实现结构风格控制,二是添加了 Style-Degree-Aware 融合模块。完整架构如图 9 所示。
实验结果
实验结果表明,VToonify 生成的风格化帧不仅与主干帧一样质量高,而且更好地保留了输入帧的细节。