单一模型预测
集合是指使用多个模型进行预测。我没有使用单个模型进行预测,如上图所示,而是使用不同的配置训练另一个模型。输入图像被输入这两个模型,最终结果将是这两个模型预测的结合。

集合预测
由Mask-RCNN处理的结果帧如下所示。左下角是原始输入图像,右下角是仅有一个模型的预测,左上角是整体结果。 (右上角是测试时间增强结果,已被当前管道中的整体取代)

Mask-RCNN处理过的图像。左下角:原创。右下:单一模型。左上角:合成。右上:测试时间增加(未讨
运行OCR
使用Mask-RCNN模块处理图像后,我们就可以在这些图像上运行OCR。与Youtube API密钥不同,你需要在谷歌云平台上申请Vision API凭据,并将其存储在本地磁盘中。

上面的代码对你的图像文件进行编码,发送到OCR API并接收响应。响应包含预测字符,每个字符的边界框坐标以及每个字符的置信度。你可以决定自己的阈值来过滤低置信度结果。最终结果写入CSV文件,每行代表每个帧。
