
你只需要设置NUM_CLASSES=1 1(字幕 背景),并指定IMAGE_MIN_DIM以及IMAGE_MAX_DIM,这取决于你的训练数据的分辨率。需要手动计算MEAN_PIXEL才能在预处理阶段进行标准化。然后,你可以开始加载数据和训练。
评估
经过100个周期的训练后,让我们开始在一些图像上运行训练有素的模型。


不同电视节目的评估结果
顶部显示左侧显示输入图像,而右侧显示输出图像。您可以看到字幕已被清楚地识别出来。虽然上面有一些噪音,但在运行OCR时对下面的字幕预测没有影响。主要问题是有时Mask-RCNN太严格了,它删除了文本的某些部分。在上面的第二个例子中,第二个字符"难"被部分删除,这可能会降低OCR的性能。为了恢复这个错误,我决定使用Ensemble。
