方差的具体计算我们不需要再多讲,不过关于样本方差为什么除以(n-1),我们平台之前发过文章解释,大家可以参考:计算样本方差时为什么是除以(n-1)?。
方差或者标准差越大说明数据越离散、变异程度越大。
3. 四分位数间距
另一个常见的指标是四分位数间距(inter-quartile range, IQR),它是根据百分位数计算出来的,计算公式是IQR = P75 - P25,即第75百分位数与第25百分位数的差。
这两个百分位数与中位数,即P50,将一组数据分成四等分,因此这三个百分位数称为四分位数(quartile),可分别记为Q1、Q2、Q3。
Q1和Q3分别称为下四分位数(P25)和上四分位数(P75)。
与极差相比,四分位数间距不受两端极大或极小数据的影响,因此其更加稳定。IQR常与中位数一起使用,综合反映数据的平均水平和变异程度,写成M(P25, P75)。
4. 变异系数
除了上述三个指标外,当我们希望比较两组数据的变异程度时,还可以使用变异系数(CV)。
当两组数据的测量尺度相差太大,比如希望比较蚂蚁和大象的体重变异,直接用标准差显然是不合理的;另外,如果两组数据单位(量纲)不同,例如希望比较身高和体重的变异,两者的量纲分别是米和千克,直接使用标准差来进行比较也不合适:3米和4千克,究竟谁更大呢?
由此,我们将样本标准差除以样本均数,得到变异系数(CV),它没有单位,同时又按照其均数大小进行了标准化,所以可以进行客观的比较。
变异系数的值越大,表示数据的变异程度越大。
5. 集中趋势和离散程度指标总结
原文:每日丁点 | 数据离散趋势的度量
9. 箱式图
学习完描述数据集中趋势和离散趋势的各种指标后,如何用恰当的图形呈现它们便成了一个重要问题。而今天要谈的箱式图就是来解决这个问题的。
箱式图,有时也称箱线图,因为中间包含一个箱子样的长方形,两端有两根细线,故称之。
箱子中间的横线为中位数、箱体的下端和上端分别是Q1和Q3的位置,由此,箱体的高度则代表四分位数间距,所以,箱体越高表示数据的变异程度越大。
相比直方图可展示原始数据的大体分布形态,箱式图表达的信息其实也很全面,它能简洁地呈现数据平均水平和变异程度,是探索性分析中最常用的图形工具。实际应用中,往往将几组数据的箱式图绘在一起,便于组间比较。
一般而言,箱式图主要呈现5个汇总的统计指标,包括一组数据的最小值、下四分位数、中位数、上四分位数、最大值。但是,我们为了涵盖更全面的信息,故常将均数也体现在图中。
如下图: 该图绘制了两个箱式图,分布代表正常居民中和患有慢性鼻窦炎的患者的精力评分,如图,在箱体中间还标出了均数,用菱形表示;以及离群值,用小空心圆表示。
此时需注意竖线下端和上端表示的不再是整个数据最大值和最小值,严格来说,应该称为上限和下限。上限是非异常范围内的最大值,计算公式是 Q3 1.5 IQR,即第75百分位数加1.5倍的四分位数间距。下限是非异常范围内的最小值,等于 Q1 - 1.5 IQR。在上下限范围之外的数,称为”离群值(outliers)“,其与其他数值差异较大,提示数据收集过程可能有误。