主要是通过召回率和虚警率两个指标来衡量。应用场景不同,这个两个指标的设置也不同,一般情况下,在实践中我们都要求在虚警率小于某个值(比如万分之一)的条件下,召回率达到某个值(比如99%)。很多产品宣称的识别准确率达到多少多少,很大可能是在公开数据集比如LFW上的测试结果。
公开的训练数据集比较推荐的有:MS1MV2,这个数据集微软前段事件已经宣布撤回不再提供下载,这个数据集大概有85000个不同的人的380万张照片。另一个数据集是GLINT_ASIA,有9万多人的280万张照片。
13 工程实践的挑战及经验分享
很多人都认为人脸识别应用,算法包打天下,事实并非如此,即使是最好的识别算法也扛不住像图像质量差。图像质量差、姿势变化、面部形状/纹理随着时间推移的变化、遮挡这些问题,是我们在工程实践中面临的挑战。
当然,大多数问题工程上我们有应对方法。比如图像模糊,光照不足,我们可以先检测图像是否模糊,关照是否不足,质量不过关,就不把图像送给识别算法。
再比如,用他人照片或视频来欺骗人脸识别系统,目前已经有多种活体检测方法来检测并防止这种情况。
经过一段时间在人脸识别领域的摸爬滚打,个人认为影响用户体验的关键因素是识别快、识别准,识别快主要靠产品设计,识别准主要靠算法。
拿人脸门禁来举个例子,产品设计上可以在前端采集照片的时候过滤掉模糊、无人脸的照片,避免无效识别,同时前端在采集照片的时候,可以同时采集多张并发传给后台,做并发识别,这些方法都可以大大提升识别通过的速度,提升用户体验。