图1。 在R中加载' iris '数据集
在Python中,你可以使用以下代码来加载iris数据集:
# need to import these things first
from sklearn.datasets import load_iris
import numpy as np
import pandas as pd
# use load_iris
iris = load_iris()
# convert into a pandas data frame
df = pd.DataFrame(
data= np.c_[iris['data'], iris['target']],
columns= iris['feature_names'] ['species']
)
# set manually the species column as a categorical variable
df['species'] = pd.Categorical.from_codes(iris.target, iris.target_names)
# use ".head()" to show the first 5 rows
df.head()
图2。在Python中加载' iris '数据集
R : dataMaid
首先,我们需要执行以下的样例代码:
# install the dataMaid library
install.packages("dataMaid")
# load the dataMaid library
library(dataMaid)
# use makeDataReport with HTML as output
makeDataReport(df, output = "html", replace = TRUE)
从第一个截图(图3)中,我们已经获得了关于iris数据集的大量信息:
1. 观测值的个数是150。
2. 变量的个数是5。
3. 根据每个变量的数据类型执行变量检查,例如识别错误编码的缺失值、< 6 obs的水平和异常值。