从二维图像中恢复三维信息是实现这些功能的基础,其中自然场景的深度估计是一大难题,技术团队从模型、算法、训练方法和数据上全面改进,改善了深度估计的质量,实现了移动端实时单目深度估计。快手也利用这些技术创新,在产品侧推广落地了立体照片、景深虚化等新玩法。
很多特效是在真实拍摄对象上增加了虚拟能力,呈现出亦真亦假的效果,其中自然、真实的特效是用户体验的关键,即让特效图像既像真人,又非真人,甚至产生让人信以为真的效果。这个看似简单的功能背后需要强大的算法支撑,快手克服训练数据、模型结构、算法逻辑等各方面困难,推出了一系列爆款特效。
童话风格魔表
快手推出的童话魔表特效,可以让每个人轻松实现自己的王子梦、公主梦,把自己变成童话形象的神奇效果,引来杨幂、迪丽热巴、娄艺潇等明星纷纷晒出自己的公主变身效果。
其实真人变卡通图、日漫二次元图像早已不是新鲜事,但是童话风格与日漫风格存在很大差异,不仅要保留真人容貌特点,还要实现动画的3D人像风格,既要风格像,也要内容像,加上训练数据不足,进一步加大了这一技术的实现难度。针对以上这些难题,快手Y-tech团队的AI工程师采用了自研的KStyleGAN结构,在3D空间中表征人脸结构、进行风格映射,并采用神经网络渲染来精细控制结果图的质感,有效克服了常规基于2D表征的StyleGAN方法的缺陷,并在移动端上落地了实时特效。
二次元风格魔表
“我慕容魔表,对着大地,对着天空,对着云,对着风,对着快手园区发誓:我一定要圆你的主角梦!!”你还记得那些玛丽苏文吗,是否也幻想成为霸道总裁或玛丽苏女主?2020年十一前夕,快手推出了一系列言情手绘魔表,上线后迅速火爆网络。
快手工程师介绍,相比于此前的一些特效玩法,“手绘”系列最大的不同,是需要兼顾真实感、美感以及卡通效果三方面的要求。也就是说,既要最大程度保留用户本人的五官和外形特征,还要具备手绘风格的美学和艺术效果。快手特效中心团队研发了一个基于GAN(生成式对抗网络)的图像翻译和风格迁移学习训练框架,结合此前CycleGAN、U-GAT-IT等技术的主要优点,并根据实际需求进行了定制化的开发和优化。
好玩儿的视频生产出来,怎么传送给观众观看?怎么提高视频消费环节的用户体验?这是快手音视频团队的核心关注。在刷视频的体验越来越好的背后,是音视频黑科技的不断迭代和落地应用。一方面,让视频的质量不断提高,让用户享受更清晰、更真实的显示效果;另一方面,要让看视频更加流畅,在不同环境下、不同硬件上都能流畅观看视频,避免视频卡顿、延迟等不好体验,做到真正的科技普惠。
HDR视频:让用户“身处其中”
2021年初,快手宣布全面支持多种高动态范围(HDR)格式视频的上传和消费,为用户带来全新的画质体验。HDR技术让像素的动态范围、色域和位深三个维度全面得到改善,让视频画面中的每个像素具备了更高的表达能力。这一技术的出现,适应了用户对更高视频体验的要求,适应了信息技术的变革发展。
相对于传统的SDR视频,HDR拥有更加出色的表现能力,可以让用户在屏幕上看到更接近事物真实状态的图像。随着支持HDR拍摄的机型越来越多,HDR会在用户中得到更广泛普及。快手的黑科技不仅在于实现HDR格式视频的上传和编辑,以及在支持HDR显示的手机上正确播放,还在于让HDR视频在非HDR手机上也能正确观看,画质也会根据算法进行调整和提升,尽量还原视频效果。因为各家视频拍摄软件采用的HDR格式都不统一,视频上传到服务器后,往往会出现适配麻烦。但在快手上,后端转码会把不统一的HDR转成统一的HDR10格式,把视频普惠分发到每台支持HDR的设备上。
音频技术:让用户“声临其境”
快手上的声音场景比较复杂,有短视频、直播、聊天室、PK、KTV等场景下的声音,也有涉及不同位置间的语音交互,语音在双向、多向传递过程中的质量保障非常重要。常见的声音延迟、噪音、响度不均、混响、回声等问题,都会明显影响用户的收听体验。快手在直播RTC语音技术、短视频智能音频技术和K歌音频技术方面取得一系列进展,保障了用户的收听体验。