图12:人眼主观感受 “画质极差”、“画质适中”、“画质极好” 的视频画面
由于人眼主观标准的差异,基准数据集的百分制分数分布中,同一分数段的视频在评价上存在差异,例如同样是 50 分的视频,也会存在”画质极差“、”画质适中“、”画质极好“三个质量档位。因此我们划分了几个分数档位,以 0-70 分为例,每隔 10 分设置一个观测档,每个档位选择 100 个视频,假设评测人员是 25 位,则每个分数档位会产生 2500 条数据,对每个档位的 2500 条数据统计如下三个指标:
好评占比 = ”画质极好“评价数 / 当前档位评价总数 × 100%
适中占比 = ”画质适中“评价数 / 当前档位评价总数 × 100%
差评占比 = ”画质极差“评价数 / 当前档位评价总数 × 100%
3.3.2 实验结果
按照上述方案,我们组织了若干评测人员,进行小规模主观实验来演示该方法效果,完成实验后进行数据回收,在每个分数档位中,每一位评测人员对于单个视频的的评价视为一条数据,每条数据之间具有同等权重。对每个分数档位计算上述”好评占比“、”适中占比“和”差评占比“,绘制堆积柱形图如图 13,注意,该结果只做演示用,不代表最终用于业务的实际数据。
图13. 分数区间从0-70分,好评占比逐步上升,
差评占比逐步下降,适中占比先升后降
图 13 中,例如画质分数为 10 分的这批视频,只有约 15% 的好评占比,差评占比约 70%,即对该分数段的视频,人们大概率会给出“画质极差”的评价。从图中看出,随着分数区间从 0-70 分,评测人员主观评价的好评占比逐步上升,差评占比逐步下降,适中占比先升后降,基本符合预期。有了这张图表作为依据,业务方可以根据实际业务需求,选择一些相应的业务分界线阈值,制定相应的产品策略,比如低劣画质预警线、极清画质推荐线等。
四、总结与展望
我们研发了 BILIVQA 算法,对其进行工程化。此外,我们制定了一套模型输出分数映射规则,用于落地大盘质量监控,这套映射规则能保证监控大盘上的画质均分具备稳定反映大盘质量变化的能力。最后,我们定义了 VQA 分数与视频画质之间的对应关系。
在无参 VQA 算法的研发、应用过程中,我们发现数据集和采样策略对 VQA 模型的准确率影响显著。在今后的工作中,我们计划制作更大规模的 UGC 视频数据集,并研发更合理的视频采样策略,从而持续优化迭代 BILIVQA 模型。同时,我们将继续探索 VQA 在其他业务场景的落地方案,如视频内容推荐、编码质量监控、指导视频处理等。
哔哩哔哩多媒体实验室是一支技术驱动的年轻队伍,具备完善的多媒体技术能力,以清晰流畅的极致视频体验为目标,通过对自研视频编码器、高效转码策略、视频图像处理、画质评价等技术的持续打磨和算法创新,提出了画量可控的窄带高清转码算法、视觉无损视频前处理、超实时4K60FPS直播超分、高效视频图像处理引擎、BILIVVC编码器等诸多高质量、低成本的多媒体解决方案,从系统尺度提升了整个转码系统的性能和效率, 助力哔哩哔哩成为体验最好的互联网视频社区。
作者:
徐一方 - 哔哩哔哩算法工程师
郝大为 - 哔哩哔哩开发工程师
马鑫军 - 哔哩哔哩高级算法工程师
蔡春磊 - 哔哩哔哩资深算法工程师
来源:微信公众号:哔哩哔哩技术
出处:https://mp.weixin.qq.com/s/C9XTFrGnEUVbxIntnMkTTQ