可以看到,仅使用一个人脸旋转路径的表现通常比组合使用两个路径的表现差。一个值得关注的例外是 PU-P,其在 RMSE 上的表现优于除 FU-P-P 之外的所有网络。但是在 SSIM 指标上,组合的效果总是更好。
还可以观察到另一个趋势:使用感知损失时通常在两个指标上都表现更好。但是,在 SSIM 指标上表现最佳的配置是 FU-P-L1 而非 FU-P-P。看起来最佳的配置是 FU-P-L1 和 FU-P-P,这两者在这两个指标上都取得了第一和第二名的成绩。因此,我们需要进一步检查生成的图像才能确定哪个更好。
- 定性评估
下面展示由一种配置生成的结果。
由 FU-P-P 网络配置渲染的人物动画
我们从视觉质量方面比较一下各种网络配置。PU-L1 和 PU-P 得到的结果过于模糊,质量差。这表明虽然 Pumarola et al. 的架构能有效地修改面部上的小组件,但当需要修改图像中较大部分时,其效果并不好。还可以观察到,由于使用了感知损失,所以 PU-P 得到的结果更清晰。但是,这种损失的副作用是会产生棋盘状伪影。
PU-L1 和 PU-P 生成的图像
ZH-L1 和 ZH-P 则能得到非常清晰的结果,因为它们是直接复制输入图像的像素。但是,它们可能生成会让人物变样的不规则伪影。
ZH-L1 和 ZH-P 生成的图像
对于使用了所有子网络的配置,面部和身体的大部分区域都很清晰,因为这些像素是由组合器从 Zhou et al. 的路径选取的。因为 Pumarola et al. 的路径比 Zhou et al. 的更不容易复制近邻像素,所以组合器可以从前者的像素中进行选择,很大程度上(但并非完全)消除后者产生的扰动伪影。因此,完全配置的网络比仅使用一条路径的网络能得到质量更好的图像。但是,这些输出中消除遮挡的部分依然很模糊。下图表明,在 4 种完全的配置中,FU-P-P 得到的结果最清晰。但是,某些人(包括我)可能并不喜欢棋盘状伪影,而更偏爱 FU-P-L1 的更平滑的输出。