华盛顿大学的照片唤醒技术,可以把动态图像转换成3D动态,让目标像是从画里走出来一般:
这些神奇的魔法,都与GAN技术相关。GAN(生成式对抗网络,Generative Adversarial Networks )是一种深度学习模型,是近年来复杂分布上无监督学习最具前景的方法之一。模型通过框架中(至少)两个模块:生成模型(Generative Model)和判别模型(Discriminative Model)的互相博弈学习产生相当好的输出。由于这样的特点,GAN成为各种生成技术的不二之选。
抖音这次推出的漫画变身特效主要技术也还是GAN,但与以往相比也有差异之处。
此前,变漫画功能基本都基于人脸表情跟踪,学界和工业界都没有千人千面的实时漫画生成方法,这次抖音推出的漫画特效是在视频中实时实现的,这项技术在全球也是首次落地。在视频中,可实现人脸和头发变漫画的效果,配合背景风格迁移技术,完成全屏漫画的实时生成,并且通过“手动滑杆”道具,能与真实视频随意切换。
实际上,抖音实时漫画特效在最终技术选型之前,曾对比过大量当前生成技术方法,包括生成漫画的方法,如 ugatit,也有做其他任务的方法,如 MUNIT 等。但经调研发现,当前的 GAN 用于漫画生成、风格迁移等任务存在一些问题,首先是训练不稳定,超参数进行一些微小的调整就可能对结果产生很大影响,而且还容易遇到梯度消失的问题。对此,抖音的改善方案是尝试多种 loss,包括WGAN、LSGAN等,但目前为止还是没有银弹,所以需要在实验过程中监控梯度的变化。
抖音技术团队告诉CSDN,在漫画视频技术探索过程中,技术团队在初期尝试中屡屡碰壁,在前期预研中,输出版本效果与图片版相差较大,且性能也未能达标。在几次尝试效果均不理想的情况下,团队内部一度对实时漫画的可行性也出现了怀疑。
但好在几次失败的尝试后,在总结经验时有人指出了关键所在:之前的模型结构单一,不同模型的优缺点不完全一致。于是,技术团队尝试了模型嫁接的方法,用不同的模块拼接出新模型,大幅提升了漫画的生成质量。在质量达标后,又通过计算每层的重要程度来裁剪模型,最终确定了实时版模型的结构。
效果产品团队也参与模型效果调优,总结出参数与效果之间的定量关系,通过微调参数优化模型。最终,行业首发的高清实时真人漫画风格处理爆款才得以诞生。
与静态图片处理相比,实现实时漫画处理究竟难在哪里呢,尤其是在手机端实现?
抖音技术团队表示,实时视频漫画处理难度还是挺高的,比如模型本身计算量需要非常小,在有限的计算量下要达到比较好的漫画效果,需要让每一次运算都要充分发挥其价值。其次,抖音的用户众多,用户使用的机型性能差距也非常大。为了满足不同层次用户的需求,抖音研发了复杂的模型下发策略,实现了模型的定制化下发,这在最终保证了实时漫画的成功上线,在效果和性能方面达到实时漫画的要求。
此外,抖音漫画特效启用了自研的推理引擎ByteNN,这个针对端侧算法快速落地的推理引擎不仅支持 CPU 和 GPU 的通用计算能力,也充分发挥了厂商 NPU/DSP 硬件的加速能力,端侧性能和功耗均处于业界领先水平,这也保证了实时漫画能够稳定支持抖音海量的用户群体。
当然,这个实时漫画特效目前的算法针对一些特殊场景还是有一定优化空间,在之后的迭代中也会从模型本身和推理引擎两个方面入手,提升模型效果的同时优化推理性能。
在泛娱乐场景,GAN还有更大发挥空间从当前推出的一些漫画生成效果来看,GAN这个热门技术确实为娱乐领域注入了很多新小的血液,引入了一些新鲜的玩法。不仅限于漫画,泛娱乐领域中,GAN方法的应用潜力肉眼可见,未来,这项新兴技术还会有哪些技术发展趋势,或者研究热点呢?
抖音技术人员认为,GAN本质上是分布之间的迁移,只要能定义分布之间的映射,就能尝试GAN。至于未来GAN还可以在哪些方向上大有用武之地,他们认为真实感和非真实感的风格迁移可能是长期的热点。除此之外,生成网络与3D技术的结合也可能是未来的热点之一。
比如同时期在日本一款 爆火的3D 姿态追踪漫画人物应用ThreeDPoseTracker,只需要使用一个USB摄像机或一段舞蹈视频来捕获运动,通过一种姿势预估模型(主干为Res-Net-34),就能让虚拟动漫人物跟着自己舞动,生成的动作效果十分精准、自然流畅。
抖音表示,这是一个有趣的应用,团队一直在关注一些前沿并且有趣的技术,事实上,抖音此前也已经上线了类似的特效,抖音搜索“召唤光头强”、“Line dancer”就可以体验。
正如抖音技术人员所说,GAN的能力不应仅局限于图片,3D的应用场景将给这项技术提供更大的展示舞台,期待在未来,GAN能够带给我们更多惊喜!