python语言九个特点,python语言

首页 > 教育培训 > 作者:YD1662023-06-23 10:00:11

检测和删除异常值的另一种方法是使用标准差。

factor = 2 upper_lim = data['culmen_length_mm'].mean () data['culmen_length_mm'].std () * factor lower_lim = data['culmen_length_mm'].mean () - data['culmen_length_mm'].std () * factor no_outliers = data[(data['culmen_length_mm'] < upper_lim) & (data['culmen_length_mm'] > lower_lim)] no_outliers

python语言九个特点,python语言(21)

请注意,现在此操作后我们只剩下 100 个样本。在这里,我们需要定义乘以标准偏差的因子。通常,我们为此目的使用介于 2 和 4 之间的值。

最后,我们可以使用一种方法来检测异常值,即使用百分位数。我们可以假设顶部或底部的值的一定百分比为异常值。同样,我们用作异常值边界的百分位数的值取决于数据的分布。以下是我们可以在PalmerPenguins数据集上做的事情:

upper_lim = data['culmen_length_mm'].quantile(.95) lower_lim = data['culmen_length_mm'].quantile(.05) no_outliers = data[(data['culmen_length_mm'] < upper_lim) & (data['culmen_length_mm'] > lower_lim)] no_outliers

python语言九个特点,python语言(22)

完成此操作后,数据集中有 305 个样本。使用这种方法,我们需要非常小心,因为它减小了数据集的大小,并且高度依赖于数据分布。

4. 分档

分箱是一种简单的技术,可将不同的值分组分箱中。例如,当我们想要对看起来像这样的数值特征进行分箱时:

在这种特殊情况下,我们将数值特征替换为分类特征。

python语言九个特点,python语言(23)

但是,我们也可以对分类值进行分箱。例如,我们可以按其所在的大陆对国家/地区进行分箱:

分箱的问题在于它可以降低性能,但它可以防止过度拟合并提高机器学习模型的鲁棒性。以下是代码中的外观:

bin_data = data[['culmen_length_mm']] bin_data['culmen_length_bin'] = pd.cut(data['culmen_length_mm'], bins=[0, 40, 50, 100], \ labels=["Low", "Mid", "High"]) bin_data

python语言九个特点,python语言(24)

上一页23456下一页

栏目热文

文档排行

本站推荐

Copyright © 2018 - 2021 www.yd166.com., All Rights Reserved.