针对上述问题,我们提出了如上图所示的解决方案。这是一个智能解决方案总框架,分为如下两个部分。
第一步是快手自研视频质量检测的算法处理,主要检测两部分。一是检测视频中的场景,如半人像场景、风景视频、CG动画场景等,通过对场景进行分类,将会有相应不同的处理算法;二是检测视频多维度基础特征,首先我们对视频质量有总评分,然后同时还进行多个维度的细致评分,维度包括:如是否有Blocky;Blocky的程度怎么样;Noisy的程度怎么样;Blur的程度怎么样;Colorfulness的程度怎么样等。我们需要统计很多维度的信息,只有统计出来才可以确认这个视频采用什么算法。分析视频多维度基础特征,给到算法决策的部分,通过算法决策再去选择算法。整体检测环节提供了精准高效的视频特征分析,助力算法自主感知。
第二步是快手智能感知增强修复原子算法池中进行自动增强算法处理,包含超分、插帧、去噪、去模糊、区块效应、反交错、视频增稳、音频增强等。我们将根据第一步视频质量检测结果,智能自动化决策出独立或组合使用增强处理算子,可以对不同的画质内容进行针对性调优,能够大幅提升画质和美感。此外,视频增强还需要与视频编解码(包括快手自研K264、K265和KVC)处理链路结合,最终需要呈现给用户消费最佳视频效果。
举个例子,如一个视频包含大量复杂纹理的草地和人物,要求编码码率非常低。如果把所有纹理(草地和人物)都变清晰,那么在低码率的情况下,用户就会获得更好的视觉体验吗?答案是否定的。反而在低码率情况下,对有限高ROI区域如人物进行纹理增强,而对其他区域做不同编码前处理增强,这样才能做到最佳低码率编码后效果。这说明增强要和编解码强结合,用户才能获得更好的观感。
2、智能修复及增强算法
第一部分主要介绍了挑战和处理框架,接下来主要讲快手在修复和增强算法研发中实际做的事情。
2.0 技术架构图下图是技术架构图。首先进行视频检测分析,确认视频损伤的类型、程度,从而做相应调度、相应增强修复算法,最后做主客观评价。
快手自研视频增强修复算法分为三类:
1.视频修复:这里指视频质量本身需要修复,例如转码块效应很大,就要做转码修复,噪声很大就要做去噪等;
2.时空域清晰度增强:空域上包含超分辨率和去模糊算法,增强空域清晰度,以及时域上的视频插帧算法,对时域进行增强;
3.色彩和纹理增强:包括色彩增强,对比度增强,以及SDR视频通过算法能力生成HDR视频,为用户带来更高的视觉对比度体验,色域更宽,感受更好。
除视频增强外,快手还会做智能音频增强,如3D环绕声场。
2.1 视频修复:首创视频转码修复(创新)接下来讲述几个典型创新算法的基本原理和效果。首先来看自研创新修复算法,即首创视频转码修复算法。
我们首先考虑一个典型实际应用例子,用户首先用手机拍下视频,这时候是用手机内置编码器芯片ASIC完成第一次编码,然后将视频上传至某平台,平台不会按照原视频直接下发,而是先做一次视频转码,转码后再下发至各个播放消费终端,在这个过程中就进行一次转码或编码。所以一个视频从拍摄到消费最少也要经过两次编码,而每经过一次编码,视频就损伤一次,这个例子应用还不包括对视频的多次编辑以及复杂操作。多次压缩会造成视频失真严重,压缩伪影更加明显。
业内算法和修复解决方案均针对单次视频压缩损伤进行修复,如将其直接用在多次视频压缩上效果会大打折扣。我们提出的解决方案是面向视频转码的时空联合辅助质量增强算法,其一大亮点是在模型网络中设置辅助监督,在对修复过程训练中不只是从头部到尾部,而是将中间第一次编码后的结果作成中间级label并进行辅助监督,相当于把网络中前半部分进行引导。辅助监督和全局监督的损失函数是有一定比例的,整体引导网络训练。然后,我们设计了时域可变形对齐模块(TDAM)、金字塔空域融合模块(PSFM)等卷积神经网络架构以进行纹理信息重建,达到显著修复并提升画质效果。
上图是我们算法的处理流程图,首先会做时域上的对齐(TDAM)、做空域上的融合(PSFM),及我们提出的特有的辅助监督注意力模块(ASAM),最后做全局监督重建模块(GSRM)。