数据分组的最后一个步骤,如何以固定值将一组数据平均分组

首页 > 体育 > 作者:YD1662023-10-31 06:33:54

这个图表存在多个问题:

我们可以通过使用 stat 选项绘制密度而不是计数,并将 common_norm 选项设置为 False 来解决第一个问题,以单独对每个直方图进行归一化。

数据分组的最后一个步骤,如何以固定值将一组数据平均分组(5)

现在这两个直方图是可比较的!

然而,一个重要的问题仍然存在:箱子的大小是任意的。在极端情况下,如果我们将数据分组得较少,就会出现最多只有一个观察的箱子;如果我们将数据分组得更多,就会得到一个单一的箱子。在这两种情况下,如果我们过度夸大,图表将失去信息性。这是一个经典的偏差-方差权衡(bias-variance trade-off)。

2.3 核密度估计(Kernel Density Estimation)

一种可能的解决方案是使用核密度函数,它尝试用连续函数来近似直方图,称之为核密度估计(KDE)。

数据分组的最后一个步骤,如何以固定值将一组数据平均分组(6)

从图中可以看出,实验组的收入估计核密度具有更"厚的尾部"(即方差较高),而平均值在各组之间似乎相似。

核密度估计的问题在于它有点像黑匣子,可能掩盖了数据的相关特征。

2.4 累积分布函数(Cumulative Distribution)

两个分布的更透明的表示是它们的累积分布函数。在 x 轴(收入)的每个点上,我们绘制了具有相等或更低值的数据点的百分比。累积分布函数的主要优点是:

数据分组的最后一个步骤,如何以固定值将一组数据平均分组(7)

我们如何解读这个图呢?

2.5 Q-Q图

一个相关的方法是Q-Q 图,其中Q代表分位数。Q-Q图将两个分布的分位数相互绘制。如果两个分布相同,我们应该得到一条 45 度的线。

Python 中没有原生的 Q-Q 图函数,虽然 statsmodels 包提供了一个 qqplot 函数,但使用起来相对繁琐。因此,我们将手动绘制。

首先,我们需要使用百分位函数计算两组的四分位数。

数据分组的最后一个步骤,如何以固定值将一组数据平均分组(8)

上一页12345下一页

栏目热文

文档排行

本站推荐

Copyright © 2018 - 2021 www.yd166.com., All Rights Reserved.