这样可以避免丢失重要信息,它首先对输入训练集进行预处理以去除重复数据,而重复数据可能会降低结果的普遍性,因为所选特征可能会过度拟合具有更多重复的类或实例。
在这之后,它分别使用信息增益和随机森林计算每个特征的重要性,重要性分数被归一化为0到1之间的值。
再通过对重要性分数进行排序和可视化,选择阈值来区分明显不重要的特征和其他特征,如果某个特征的重要性大于阈值,则保留该特征。
相反,如果其重要性低于阈值,则删除该特征,这就要假设基IG和RF度量选择的两个缩减特征子集中都可能存在重要特征。
因此它们的并集用于进一步的特征优化,还有递归特征消除。
递归特征消除递归特征消除(RFE)是研究人员特征选择方法的第二步,RFE是一种包装特征选择方法,它可以通过递归消除每个特征来基于机器学习性能迭代地评估特征的重要性。
RFE在每次迭代中删除最不重要的特征,直到获得最佳性能或达到指定数量的特征,在他们的RFE算法中,输入训练集和验证集仅包含第一阶段减少的数字特征和所有分类特征。
这种算法的其他输入包括,正整数患者p和包含第一阶段所选特征的列表病人,p在它特点引入是为了在多次迭代中无法获得更好的性能时及时停止RFE。