python语言九个特点,python语言

首页 > 教育培训 > 作者:YD1662023-06-23 10:00:11

如您所见,我们添加了三个新功能,每个功能都包含编码的分类特征。从前五个实例中,我们可以看到物种类别Adelie用值0编码,岛屿类别Torgenesn用值2编码,性别类别FECE雄性分别用值0和1编码。

2.2 一热编码

这是最流行的分类编码技术之一。它将要素中的值分散到多个标志要素,并为其赋值 0 或 1。此二进制值表示非编码要素和编码要素之间的关系

python语言九个特点,python语言(13)

例如,在我们的数据集中,我们在"性别"特征中有两个可能的值:女性男性。此技术将创建两个单独的功能,分别标记为"sex_female"和"sex_male"。如果在"性别"特征中,我们对某些样本的值为"FEMALE",则将为"sex_FEMALE"分配值 1,并为"sex_male"分配值 0。同样,如果在"性别"特征中,我们对某些样本的值为"MALE",则将为"sex_male"分配值1,并为"sex_female"分配值0。让我们将此技术应用于我们的分类数据,看看我们得到了什么:

encoded_spicies = pd.get_dummies(categorical_data['species']) encoded_island = pd.get_dummies(categorical_data['island']) encoded_sex = pd.get_dummies(categorical_data['sex']) categorical_data = categorical_data.join(encoded_spicies) categorical_data = categorical_data.join(encoded_island) categorical_data = categorical_data.join(encoded_sex)

python语言九个特点,python语言(14)

正如你一样,我们在那里给出了一些新的专栏。从本质上讲,每个功能中的每个类别都有一个单独的列。通常,只有一个热编码值被用作机器学习算法的输入。

2.3 计数编码

计数编码是将每个分类值转换为其频率,即。它在数据集中出现的次数。例如,如果"物种"特征包含 6 次类 Adelie 的出现,我们将用数字 6 替换每个 Adelie 值。以下是我们在代码中执行此操作的方法:

categorical_data = data.drop(['culmen_length_mm', 'culmen_depth_mm', \ 'flipper_length_mm', 'body_mass_g'], axis=1) species_count = categorical_data['species'].value_counts() island_count = categorical_data['island'].value_counts() sex_count = categorical_data['sex'].value_counts() categorical_data['species_count_enc'] = categorical_data['species'].map(species_count) categorical_data['island_count_enc'] = categorical_data['island'].map(island_count) categorical_data['sex_count_enc'] = categorical_data['sex'].map(sex_count) categorical_data

python语言九个特点,python语言(15)

请注意每个类别值如何替换为出现次数。

2.4 目标编码

与以前的技术不同,这个技术有点复杂。它将分类值替换为该要素值的输出(即目标)的平均值。从本质上讲,您需要做的就是计算具有特定类别值的所有行的平均输出。现在,当输出值为数字时,这是非常直接的。如果输出是分类的,就像我们的PalmerPenguins数据集一样,我们需要应用一些以前的技术。

python语言九个特点,python语言(16)

上一页12345下一页

栏目热文

文档排行

本站推荐

Copyright © 2018 - 2021 www.yd166.com., All Rights Reserved.