youtube视频代码（youtube嵌入式视频代码） - 原点资讯

单一模型预测

集合是指使用多个模型进行预测。我没有使用单个模型进行预测，如上图所示，而是使用不同的配置训练另一个模型。输入图像被输入这两个模型，最终结果将是这两个模型预测的结合。

youtube视频代码,youtube嵌入式视频代码(21)

集合预测

由Mask-RCNN处理的结果帧如下所示。左下角是原始输入图像，右下角是仅有一个模型的预测，左上角是整体结果。（右上角是测试时间增强结果，已被当前管道中的整体取代）

youtube视频代码,youtube嵌入式视频代码(22)

Mask-RCNN处理过的图像。左下角：原创。右下：单一模型。左上角：合成。右上：测试时间增加（未讨

运行OCR

使用Mask-RCNN模块处理图像后，我们就可以在这些图像上运行OCR。与Youtube API密钥不同，你需要在谷歌云平台上申请Vision API凭据，并将其存储在本地磁盘中。

youtube视频代码,youtube嵌入式视频代码(23)

上面的代码对你的图像文件进行编码，发送到OCR API并接收响应。响应包含预测字符，每个字符的边界框坐标以及每个字符的置信度。你可以决定自己的阈值来过滤低置信度结果。最终结果写入CSV文件，每行代表每个帧。

youtube视频代码,youtube嵌入式视频代码(24)

youtube视频代码,youtube嵌入式视频代码