i主题为什么不能清除数据,为什么手机不能清除所有数据

首页 > 实用技巧 > 作者:YD1662024-01-28 18:40:14

数据缺失通常有两种情况:

  1. 一种是数据行记录的缺失,这通常是数据记录丢失,很难找回;
  2. 另一种是数据列值的缺失,可能由于某些原因,导致的数据不完整。

这里主要讨论数据列植的缺失情况,通常有如下4种处理思路:

这种方法最简单明了,直接删除整行或者整列带有缺失值的记录。但是这种丢弃意味着会减少数据特征,弊端也十分明显。

如下情况,不宜直接使用丢弃的方法:

数据集总体存在大量数据记录不完整情况而且比例较大,比如超过10%,此时删除这些缺失值,就意味着会损失过多的有用信息。

带有缺失值的数据记录大量存在着明显的数据分布规律或特征,比如带有缺失值的数据记录是我们的目标标签主要集中在一类或者几类中,如果此时删除这些数据记录,将会使得对应类别的数据样本丢失大量数据,导致模型过拟合或者分类不准确。

相对于丢弃而言,补全则是一种更加合理的处理方法。通过一定的方法将缺失的数据补上,从而形成完整的数据记录。

常用的补全方法有:

统计法:对于数值型数据,可以使用均值、加权平均值、中位数等方法补全;而对于分类型数据,一般会是用类别众数最多的数值补足。

模型法:更多的时候,我们会基于其他字段,将缺失字段作为目标变量进行预测,从而达到最为可能的补全值。

专家补全:对于一些专业性非常强的数据,可以通过自学业界专家,来补全缺失数据,这种方法在很多情况下也是一种非常重要的补全途径。

其他方法:例如随机法、特殊值法,多重填补法等。

i主题为什么不能清除数据,为什么手机不能清除所有数据(13)

在某些情况下,我们可能无法得知缺失值的分布规律,而且也无法应用上面的方法进行补全;或者我们认为当前的缺失记录也是数据的一种规律,不应该轻易的对缺失数据进行处理,那么此时就可以使用真值转换法来处理。

这种方法的观点是,我们承认缺失值的存在,并且把数据缺失也作为数据分布规律的一部分看待,将变量的实际值和缺失值都作为输入维度参与后续的数据处理和模型计算中。但是真实值是可以直接参与计算的,缺失值通常无法参与运算,因此需要对缺失值进行真值转换。

对于缺失值,不做任何处理,也是一种处理缺失值的思路。这种方式主要取决于后续的模型运算,很多模型对于缺失值有容忍度或灵活的处理方法,因此在数据预处理阶段可以不作处理。

i主题为什么不能清除数据,为什么手机不能清除所有数据(14)

预处理小tips

i主题为什么不能清除数据,为什么手机不能清除所有数据(15)

非需求数据清洗

i主题为什么不能清除数据,为什么手机不能清除所有数据(16)

上一页12345下一页

栏目热文

文档排行

本站推荐

Copyright © 2018 - 2021 www.yd166.com., All Rights Reserved.