SQuAD 1.1和SQuAD 2.0:F1得分
4、语言推理能力
2015年推出的VQA挑战的任务是给定一个图像和一个基于公共数据集的关于图像的自然语言问题,要求机器给出准确的自然语言答案。图2.4.1显示,自2015年在国际计算机视觉会议(ICCV)上第一次发布以来,VQA挑战的准确度增长了近40%。2020年挑战赛的最高准确度为76.4%。这一成果已经非常接近于人类基线80.8%的准确度,与2019年排名靠前的几个算法相比性能提高了1.1%。
视觉问答(VQA)挑战:准确度
视觉常识推理(VCR) 任务于2018年首次推出,它的要求是机器回答一个关于给定图像的具有挑战性的问题,并通过推理证明该答案的正确性(而VQA只要求回答)。 性能最好的模型的Q->AR分数从2018年的44分提高到了2020年的70.5分。与2019年最好的几个模型相比,2020年最优模型的性能提高了60.2%。
视觉常识推理(VCR)任务:Q->AR得分
5、语音
语音识别,或称为自动语音识别(ASR),是指令机器能够识别口语单词并将其转换为文本的过程。
自1962年IBM推出第一项语音识别技术以来,随着AmazonAlexa、Google Home和Apple Siri等语音驱动应用的日益普及,这项技术也在不断发展。特别是深度神经网络的灵活性和强大的预测能力,使得语音识别变得更加容易。
2015年首次推出LibriSpeech数据库。该数据库包括了有声读物中1000小时的语音,已经广泛应用于语音识别技术的开发和测试。近年来,基于神经网络的人工智能系统显著提高了LibriSpeech的性能,将单词错误率(WER;0%是最佳性能)降低到了2%左右。
LIBRISPEECH:字错误率,Test Clean