ImageNet挑战:Top-5准确度
随着时间的推移,原始测量准确度的提高,评估在ImageNet上训练图像分类器达到标准性能水平所需的时间变得非常有用,因为它能够揭示出大规模人工智能训练的基础计算基础设施的进步。
下面是MLPerf的结果,这是一个由非盈利性机器学习开放组织MLCommons组织举办的竞赛,参赛者使用公共(残差网络)架构训练ImageNet网络,然后根据训练系统所需的实际时间对系统进行排名。
ImageNet上的训练时间从6.2分钟(2018年12月)下降到47秒(2020年7月)。与此同时,用于实现这些成果的硬件数量大幅增加。前沿系统一直以使用“加速器”芯片为主,从2018年的GPU开始,2019年和2020年过渡到谷歌的TPU,并获得了同类型的最佳结果。
IMAGENET:培训时间的分配ImageNet:最佳系统的训练时间和硬件
训练一个现代的图像识别系统大概需要多少钱?根据斯坦福DAWNBench团队的测试,答案是2020年只需要几美元。这一数字比2017年的成本下降了大约150倍。从这个角度来看,2017年10月,一个参赛者参赛需要花费的成本是1100美元,而现在大约只需要7.43美元。这代表了算法设计的进步以及云计算资源成本的下降。
ImageNet:训练成本(准确率达到93%)
2、计算机视觉——视频
在视频方面,目前对视频理解的研究仍然集中在较短时间的事件中,比如几秒钟长的视频。较长时间的视频理解正在获得越来越多的关注。
视频使用的基准是2015年推出的ActivityNet。
ActivityNet时间动作定位任务
下图显示了2020年时间行动定位任务中最困难的活动,以及它们的平均精度与2019年结果的比较。喝咖啡(Drinking coffee)仍然是2020年被认为最困难的活动。石头剪子布(Rock-paper-scissors)虽然仍然是排名第十的最困难的活动,但它的改进是相当巨大的,增长了129.2%,即从2019年的6.6%增加到了2020年的15.22%。