通过将数据切割为32×32的小块和标签来生成训练集数据。这里为了适应模型的训练,使用小块的尺寸是32×32。
上面程序的X_train和Y_train就是供模拟训练的数据集。
生成测试集
同样的原理,使用测试集1的数据test1_seismic.npy和test1_labels.npy来生成测试集数据。不过如果测试数据区域较大,生成的测试集数据量将很大,普通计算资源无法承受。因此我们切割了部分区域的测试集数据。
训练/测试集数据分离
在大多数情况下,准备的训练数据分类不会平衡,会影响模型的泛化性。
比如本实验的训练数据分类情况如下:
从统计结果来看,分类的样本数量很不均匀。
为了提升训练数据均衡性,可以使用随机采样的方法。
通过上面程序随机采用后,训练数据分类就成了下面的情况: