2019-20年ActivityNet:最困难的活动,2019-20
目标检测是在图像中识别给定目标的任务。一般来说,在实际场景中部署的系统中,图像分类和图像检测任务通常是耦合在一起的。解决衡量已部署的目标识别系统改进情况的一个有效方法是研究广泛应用的目标监测系统的发展情况。
YOLO是一个广泛使用的开源的对象检测系统。YOLO的进展已经包含在YOLO变体的一个标准任务中,这样方便我们了解科学研究是如何普及到开源工具中的。
YOLO:平均精度
人脸识别方面,美国国家标准与技术研究所(NIST)的人脸识别供应商测试(FRVT)提供了对商用和原型人脸识别技术的独立评估。
下图给出了在多个不同数据库中根据错误不匹配率(FNMR)测量的性能最好的1:1算法的结果。FNMR是指当试图将图像与个体匹配时算法失败的速率。在过去四年中,入案照和签证照的面部识别技术改进最为显著,错误率从接近50%下降到2020年的只有百分之零点几。
2017-20年NIST FRVT 1:1数据库验证准确度
3、语言近年来,自然语言处理技术的进步使得数十亿人访问的大规模系统发生了重大变化。例如,在2019年末,谷歌开始将其BERT算法部署到搜索引擎中,使得该公司称其内部质量指标有了显著改善。微软也紧随其后,在2019年晚些时候宣布将使用BERT来改进其必应(Bing)搜索引擎。
英语理解基准使用的是 SuperGLUE,它是一个单一的测量基准,用于评估模型在已建立的数据库上执行一系列语言理解任务的性能。 SuperGLUE得分是通过计算一组任务的平均得分得到的。
微软的DeBERTa模型现在以90.3分的成绩高居SuperGLUE排行榜榜首,而SuperGLUE的“人类基线”平均分为89.8分。虽然这并不意味着人工智能系统在所有SuperGLUE任务上的表现都超过了人类,但这确实说明这一整套方法的平均表现已经超过了人类的基线。
SuperGLUE基准
另外一个基准是斯坦福问答数据库(Stanford Question AnsweringDataset,简称SQuAD),它衡量NLP模型能够为一篇小文章的一系列问题提供简短答案的准确程度。
SQuAD 1.1的F1成绩从2016年8月的67.75分提高到了2018年9月的91.22分(25个月),而SQuAD 2.0仅用了10个月的时间就超过了人类的表现(从2018年5月的66.3分提高到2019年3月的89.47分)。2020年,最先进的SQuAD 1.1和SQuAD 2.0的F1成绩分别达到了95.38分和93.01分。