研究背景
爱奇艺拥有海量优质的视频资源,对这些视频资源的结构化分析,尤其是分析视频中出现的人物尤为重要。目前,人脸识别技术已经应用到爱奇艺多个产品中,如“AI雷达”和“只看TA”。 “AI雷达”分析当前视频画面中出现的人物,“只看TA”分析整个视频中人物出现的所有场景片段。这两个产品底层都依赖人脸识别技术。
训练一个高性能的人脸识别模型,采用监督学习的方式,需要大量的带标签的人脸数据,通常数据量越大,训练的模型性能越好;人物越多,识别性能越好。目前公开库中较大的人脸数据集MS-Celeb-1M包括约10万个人物的1000万张图片;iQIYI-VID包括约1万个人物的64万个视频片段,其中iQIYI-VID-FACE包含约1万个人物600万张人脸图像。
然而,获取某个人的多张图片是比较困难的,需要人工标注。这在一定程度上阻碍了模型性能的提升。同时,人脸识别是个open-set问题,有标签数据中的几万个人物只是地球上几十亿人的极小一部分,训练出来的模型泛化能力可能不足。
为了解决上述问题,我们提出用无标签数据优化人脸识别模型。区别于其他半监督学习方法,我们的方法对无标签数据没有过多限制,只需基本保证这人不出现在有标签数据中。无标签数据的加入,可以轻易扩大训练人物数量,提升模型泛化能力。
Unknown Identity Rejection(UIR)Loss
为了利用无标签数据,我们设计了半监督损失函数,Unknown Identity Rejection(UIR)Loss。人脸识别是open-set问题,将开放环境中的人物类别分为两类:有标签类(S)和无标签类(U),
。训练过程中,对于有标签类,每个样本特征需要逼近分类层对应类别的类心向量;对于无标签类,它不属于分类层的任何一个类,模型需要“拒绝”它们,即特征与每个分类层类心距离都足够远。如下图(a),w1w1和w2表示两个分类层类心向量,圆点表示样本特征。图(b)中,加入无标签类wu后,为了wu距离w1和w2、足够远,会使得有标签类别在特征空间上更稀疏,类间距离更大。
对于CNN分类模型,全连接分类层的输出经过softmax后得到p1,p2…pn,表示属于各个类别的概率值。然而无标签类别并不属于任何一类,理想情况下p1,p2…pn应该都足够小,可以通过设置阈值将其过滤,提升库外拒绝率。基于这个想法,问题可以转化成:
minimize