路香菊
路香菊的团队,还在虚拟人物识别中借鉴了真人识别中的一些损失函数,如 Softmax、SphereFace、CasFace、ARCFace等,不断使类内分布更紧密,类间分布差异更大,提高实践应用中判别的准确性。此外,也利用真人数据与卡通数据进行融合来弥补虚拟人物数据不足的现状。
就真人识别来讲,爱奇艺人脸识别相关算法使用的人脸数据库 ID已达到了550万,可直接识别名字的名人数量达到30万左右。面对这么多人脸数据,如何处理噪声是一项非常艰巨的任务。他们以算法为主,人工为辅将人脸数据集的噪声比例降到了非常低的水平,使模型精度有了大幅度的提升。通过模型量化、剪枝、蒸馏等处理优化模型速度,同时对CPU版本进行定制优化,节省了大量资源。
为了支持这么大规模的人物数据训练,爱奇艺还自研了定制化分布式框架。虽然有一些开源的框架,但是更多情况下适合一些简单任务。针对有定制化需求任务难以满足的情况,他们的自研框架,无论是整体训练的精度,还是训练速度,都有非常大的提升空间。
在识别精度方面,爱奇艺在他们的数据集上进行评测:第一个数据集是中学生库,数据分布主要集中在证件照或证件照相匹配的实际应用场景;二是爱奇艺员工数据库,里面包含了大量的人脸、姿态、表情等变化;三是爱奇艺在多模态人物识别竞赛中发布的数据集,里面主要是针对明星的视频数据进行身份识别。
爱奇艺不仅做简单的人脸识别,而且在人脸信息不足或不清晰的情况下,选择其他信息来辅助进行人物定位。在所有的信息中,首先是声音信息;其次,在无声情境中,要结合场景(如打斗、行走中、监控),利用人物的一些动作、背影等姿态以及服饰等信息来进行人物身份判断。
经过两年的积累,爱奇艺基于真实场景中视频任务的多模态数据库已经成为业内首个多模态数据,并且标签清晰,规模最大。
文:华笙 / 数据猿