处理缺失值最简单的方法是从数据集中删除缺少值的样本,实际上,某些机器学习平台会自动为您执行此操作。但是,由于数据集的减少,这可能会降低数据集的性能。最简单的方法是再次使用熊猫:
data = pd.read_csv('./data/penguins_size.csv')
data = data.dropna()
data.head()
请注意,第三个缺少值的示例将从数据集中删除。这不是最佳的,但有时这是必要的,因为大多数机器学习算法不适用于稀疏数据。另一种方法是使用插补,这意味着替换缺失值。为此,我们可以选择一些值,或者使用特征的平均值,或者特征的平均值等。不过,我们需要小心。观察索引为 3 的行处的缺失值:
如果只是将其替换为简单值,我们将相同的值应用于分类和数值特征:
data = data.fillna(0)