图3:用户调查结果
图4展示了本文提出的方法(TTSR)与现有的方法在不同数据集上的视觉比较结果,可以发现本文提出的方法显著领先于其他方法的结果。
图4:本文提出的 TTSR 与现有方法在不同数据集上的视觉比较结果
关于本文更多的技术细节,欢迎关注我们在 CVPR 2020 上发表的论文 “Learning Texture Transformer Network for Image Super-Resolution”。相关的代码和预训练模型将于近期公布在 GitHub 上。
论文链接:
照片时空穿梭, AI 技术助力老照片修复最近,一段由 AI 修复的清朝北京影像在社交平台大火,视频修复后的老北京街头栩栩如生,让人仿佛置身于那个年代。相比于此前简单的依次应用去噪、去模糊等修复方法,微软亚洲研究院的研究员们提出了专门针对老照片或电影修复的端到端的神经网络处理方法,达到了目前最高质量的照片修复效果。该研究成果将在 CVPR 2020 发表口头报告。
图5:常见的老照片瑕疵非常复杂,包括破损、折痕、模糊、胶片噪声、泛黄等等。
与一般图像修复不同的是,老照片中往往包含多种瑕疵(如图5),且不同年代的图片由于摄影技术的不同,其畸变类型有着显著差异。这使得在合成数据集上训练得到的模型难以适应于实际老照片的修复。与常见图片修复依赖配对监督信号不同,我们将老照片修复问题定义为在三个图片域之间的图片翻译(triplet domain translation):实际待修复老照片(X)、合成图像(R)以及无瑕疵高质量目标域图片(Y) 分别视为三个图片域,我们希望学习得到 X→Z 的映射(如图6)。其中,合成图片与目标域图片形成配对关系。
图6:三元域图像翻译框架(triplet domain translation)。X 为真实老照片域,R 为合成图片, Z 为无瑕疵高
若直接利用合成数据集以及目标域图片的配对关系,训练得到的模型难以泛化到对真实老照片的处理。于是我们提出,将老照片与合成照片映射到同一个隐空间当中(\left(Z_{X} \approx _{R}\right)),之后通过学习隐空间映射T_Z,将畸变图片映射到目标域图片的隐空间,即Z_Y。该三元域图片翻译框架对于我们的真实照片修复有着若干优势。首先,合成图片视觉上与真实老照片较为接近,二者的分布有着一定重叠,因而我们可以较容易地将它们映射到同一隐空间。在共有隐空间做图像修复,可以大大提高修复网络对于真实照片的泛化能力。其次,相较于 CycleGAN 等无监督翻译方法,我们的半监督学习图片修复充分利用了合成数据集的配对监督,从而实现对真实老照片的高质量修复。
我们采用如图7的网络结构来实现三元域图像翻译。具体地,我们提出用两个变分自编码器(variational autoencoder,VAE)来分别得到两个隐空间Z_{X}\left(\approx Z_{R}\right)和Z_y。第一个自编码器(VAE1)学习重建真实图片与合成图片,并在中间用一个对抗学习的判别网络将两种输入的隐空间对齐到同一空间。这里我们采用变分编码器而不是普通的自编码器,这是因为变分编码器假设隐空间满足高斯先验(Gaussian prior),因而图片的隐空间编码更为紧凑,两种输入域的分布更容易被拉近。
类似的,我们用第二个自编码器 VAE2 得到高质量目标图片的隐空间编码。之后,我们固定两个 VAE 的编解码器,利用合成图片与目标图片的显式配对关系(标识为红色框),学习一个额外的隐空间映射(蓝色虚线),以实现对图片的修复。