图11. 随着视频采样数量的提升,采样集的统计特性会趋近真实统计特性
3.2 映射机制在业务中的表现
一个稳定的映射机制应该可以使映射后的模型分数准确反映大盘画质,即:大盘的视频质量提升时,映射后的模型均分上升;大盘画质不变时,映射后的模型均分保持稳定,即使有 VQA 模型迭代更新,均分也不应跳变。
3.2.1 体现 B 站大盘视频整体质量上升
我们最终确定的基准数据集是由 15 万条 B 站热门视频构成的,筛选机制为全站累计播放量排名靠前,因此包含一些几年前的老旧视频。随着用户拍摄设备的迭代,用户上传的原始稿件画质也在逐年上升,从视频分辨率的角度出发,我们对近期线上某一天的大盘视频进行随机抽样(以下统称为“临时抽样单日数据集”),统计这批视频的像素量(视频的宽×高),数据显示该临时抽样单日数据集的平均像素量相较于基准数据集提升了 1.94%。这说明随着时间发展,用户制作视频的质量在不断提升。
对这批视频使用 BILIVQA 画质量纲进行打分,测试数据显示,均分达到了 55 分左右。由于输出的百分制分数是由模型直出的分数在基准数据集中的排名转化而来的,所以理论上当视频分布与基准数据集一致的时候,均分一定在 50 分附近,而近期视频的均分达到了 55 分,这就证明了 BILIVQA 画质量纲可以准确的衡量用户稿件质量的提高。
3.2.1 VQA 模型版本迭代后大盘均分保持稳定
紧接着我们验证了我们的映射机制在大盘画质基本稳定的情况下,可以在不同版本的 VQA 算法之间保持均分的稳定。还是前文提到的临时抽样单日数据集,我们同时使用 BILIVQA 和当时在学术界性能表现最好的开源模型 Fast-VQA 对这批视频分别打分,并用我们的映射机制映射为百分制,然后计算均分,结果表明,BILIVQA 和 Fast-VQA 的百分制均分分别为 55.51 和 54.88,说明当采用两种不同的 VQA 模型时,BILIVQA 画质量纲能够保持稳定。这一属性,可以让应用不依赖于具体的 VQA 模型,同时 VQA 模型在迭代之后可以快速平滑地上线,支持基于 VQA 的应用长期稳定地运转。
3.3 画质分数与主观质量的对应关系
有了基准数据集和模型分数映射准则,我们可以对任意视频输出一个质量评估分数,但这个分数与真实视频质量之间的对应关系如何?只有确定了这个对应关系,才能打通业务落地的最后一个环节,比如,我们可以通过确定一些典型的标杆分数来指导业务行为,如对低画质视频预警、并使用前处理算法进行画质修复,对高画质视频推荐加权等。典型的几组关系如:“严格差”分数线 —— 指低于这个分数后,人眼主观认为画质差得不可接受;“严格好”分数线 —— 指高于这个分数,人眼主观会认为画质绝对好;“画质分界”分数线 —— 指小于该分数则定义为画质差。为了确定这套分数对应关系,我们设计了一系列主观实验。
3.3.1 实验设计
对视频的人眼主观评价,顾名思义是“主观”的,因人而异的,即使对同一个视频,不同人也会给出不同评价,因此归根结底我们评价一个视频的质量好坏,是基于”概率“的概念,即多数人认为该视频质量好,则该视频大概率是个高画质视频,反之亦成立。
因此对于上文中提到的三条画质分界线,我们按照人眼主观对画质的评价规律来组织实验。首先我们定义三个档位的画质评价:“画质极差”、“画质适中”、“画质极好”,我们做出如下假设:对一个画质“严格差”的视频,大多数人都会给出“画质极差”的评价;对一个画质“严格好”的视频,大多数人都会给出“画质极好”的评价;对一个画质处于“画质分界”的视频,大多数人会给出”画质适中“的评价。