eda的数据分析法（eda数据分析课程） - 原点资讯

图1。在R中加载' iris '数据集

在Python中，你可以使用以下代码来加载iris数据集:

# need to import these things first from sklearn.datasets import load_iris import numpy as np import pandas as pd # use load_iris iris = load_iris() # convert into a pandas data frame df = pd.DataFrame( data= np.c_[iris['data'], iris['target']], columns= iris['feature_names'] ['species'] ) # set manually the species column as a categorical variable df['species'] = pd.Categorical.from_codes(iris.target, iris.target_names) # use ".head()" to show the first 5 rows df.head()

eda的数据分析法,eda数据分析课程(5)

eda的数据分析法,eda数据分析课程(6)

图2。在Python中加载' iris '数据集

R : dataMaid

首先，我们需要执行以下的样例代码：

# install the dataMaid library install.packages("dataMaid") # load the dataMaid library library(dataMaid) # use makeDataReport with HTML as output makeDataReport(df, output = "html", replace = TRUE)

从第一个截图(图3)中，我们已经获得了关于iris数据集的大量信息：

1. 观测值的个数是150。

2. 变量的个数是5。

3. 根据每个变量的数据类型执行变量检查，例如识别错误编码的缺失值、< 6 obs的水平和异常值。

eda的数据分析法,eda数据分析课程(7)