然而,在PCA可视化中,可以明显观察到原始训练集和测试集在3维空间中具有不同的分布,因此基于训练集拟合的模型可能无法反映测试集的性能。
在这种情况下,模型可能会过度拟合训练集的特殊分布,并且不能很好地泛化,研究人员验证集通常需要与测试集具有相同的分布,才能正确估计模型的训练损失。
这也导致了他们在研究中,将原始测试集拆分以构建新的验证集和测试集,而新的验证集和测试集具有相同的分布,以帮助模型避免过度拟合。
结论在使用IG和RF进行集成特征选择之前,研究人员删除了训练集中的重复样本,以避免过度拟合特征。
在这之后,他们在训练集上应用信息增益和具有1000棵树的随机森林分类器,以获得39个数字特征的重要性排名。
而IG排名和RF重要性排名中存在一些低重要性特征,这可能会降低模型的性能,他们分别选择0.25和0.02作为两种特征选择方法的阈值来过滤重要特征。
所以在IG排序中,重要性得分大于0.25的特征被保留,而在RF重要性排序中,重要性得分大于0.02的特征被保留。
在分别从出这两个指标中不重要的特征后,得到两个特征子集,之后通过IG特征选择保留了22个特征,又通过RF重要性特征选择重新训练了19个特征。