作者:Mochamad Kautzar Ichramsyah
翻译:陈超
校对:赵茹萱
本文约3900字,建议阅读10分钟
本文将会用常用的iris数据集来学习如何在R和Python中实现探索性因素分析的过程。
图片来自Charlotte Karlsen, Unsplash
什么是EDA?
EDA是我们更好地理解数据集的重要方式之一。几乎所有的数据分析和数据科学专家都在产生新观点或者数据建模之前先做EDA。在现实生活中,依赖于数据集的复杂度和完整性,这个过程会花费大量时间。当然,变量越多,我们在下一步开始前就需要探索越多才能获得结论。
这就是为什么我们会用R或者Python这些最常见的数据分析程序语言,一些包能够帮我们更快更容易地完成EDA,但不会做得更好。为什么呢?因为它只会给我们展示一个结论,我们需要深入探索我们觉得“有趣”的变量。
“80/20规则”适用:80%的数据分析师或科学家的宝贵时间花在简单的查找、清理和组织数据上,只剩下20%的时间用于执行分析。
我们需要哪一个库呢?
在R中我们可以用这些库:
1. dataMaid
2. DataExplorer
3. SmartEDA
在Python中,我们可以使用这些库:
1. ydata-profiling
2. dtale
3. sweetviz
4. autoviz
让我们试用一下上面列出的每个库,看看他们长什么样子以及如何帮助我们做探索性数据分析!在本文中,我将会用常用的iris数据集来学习如何在R和Python中编码。
在R中你可以使用以下代码加载iris数据集:
# iris is part of R's default, no need to load any packages
df = iris
# use "head()" to show the first 6 rows
head(df)