训练集和测试集样本的统计分布已被验证为高度相关,这意味着机器学习模型的划分是可靠的,还有一些少数类别:分析类、后门类、Shellcode类和蠕虫类,其比例不到2%。
但在10%的数据集中,去除了一些无意义的特征,特征数量减少到42个,包括38个数值特征和3个分类特征,而在这次研究中,研究人员使用10%数据集进行分类。
训练、验证和测试集准备在一些研究结果完成以后,研究人员将PCA应用于UNSW-NB15提供的原始训练和测试集,将它们减少到三个维度,并可视化它们的分布。
在PCA潜在空间的可视化中可以看到不同类别的分布,这增加了数据的可解释性,虽然PCA可视化不能表示数据的所有维度。
但可以发现在三维空间中,不同类型的攻击和正常类别之间存在大量重叠,如果从另一方面来看。
单是训练集和测试集的3维可视化可以看出,训练集和测试集在某些区域的空间分布并不相同。
机器学习通常会划分数据集以用于不同的目的,而训练集用于拟合模型,验证集用于估计训练中的损失,测试集用于验证模型的性能。
这三组假设包含单独的数据样本,以避免数据泄漏导致的性能偏差,UNSW-NB15数据集不提供单独的验证集,因此大多数先前的研究都保留了训练集中的验证集。