常关注『丁点帮你』微信公众号的小伙伴们应该都比较熟悉最近推出的『每日丁点』统计知识系列,我们希望每天给大家呈现精炼又便于理解的知识总结。(提示:头条号不支持外部链接,所以以下链接如有失效,可关注“丁点帮你”查看原文)
目前,已有10篇入门级知识点的讲解短文与大家见面了,这些知识点也是后续学习和实操中必不可少的理论基础。今天我们就来一起回顾一下,看看每天进步一丁点之后,你的收获吧!
1. 为什么要学统计?
按照教科书的定义,统计学(statistics)是一门关于数据的科学,它包括收集、分析、解释和表达数据,目的是获得可靠的结论。为什么要学统计?因为个体之间存在变异,也就是个体间的差异。比如,一个班每个学生的身高、两种药物的疗效等几乎都不可能完全相同的,一定会有“差异”。如果世间万物都完全一致(比如克隆人),那么个体之间就不存在差异(也就是所谓的变异),到那时统计学就毫无用武之地,因为我们能以一当十,甚至以一当所有,不需要抽样,不需要求平均。
变异代表了什么?答案是信息!身高体重的差异,给了我们谁更高谁更壮的信息;某项生理指标的差异,例如血压,可以获得健康与非健康的信息;两种药物或治疗方法的差异,获得了孰优孰劣的信息……为了获取诸如上面所说的信息,我们开始收集和分析数据,再对结果进行解释和表达,最终得出谁更高、谁更壮、有多少人更健康、哪种药更好的结论。
原文:每日丁点 | 统计学初探
2. 数据是统计的基础,变量是数据的基础。
原文:每日丁点|定量和定性变量、连续和离散变量,到底怎么分?
3. 频数表和直方图
制作频数分布表和直方图的目的是为了快速了解数据的分布情况。所谓分布,简单理解就是想知道,数据会主要集中在哪儿。无论什么资料,刨除它的单位(如身高、体重等),它们都是一个一个的数字,那么从数轴上看,这些数字会处在在哪些地方呢?比如身高的数据,如果以米为单位,根据常识可以猜测,它会大概集中在1.5-1.8这个区间内。也就是说,虽然每个人的身高不完全相同,但身高的数据却是有规律的,如何发现这种规律,第一步就是画出它的频数分布表和直方图。
制作频数分布表的步骤如下:(1)找出最小值和最大值。(2)计算全距 (range,R) :也就是最大值与最小值之差。(3)确定组距:相邻两组之间的距离,组距=全距/组段数,通常组段数取8~12组。(4)确定组段的上、下限:每个组段的起点为下限(lower limit),终点为上限(upper limit)。每个组段均包含组段的下限值,最后一组的组段写出上限值。(5)列表整理:计算频数、频率、累计频数及累计频率。频数分布直方图的以横轴为得分、纵轴为频数;然后在横轴上标出各个组段(比如40-50),用直条的高度表示各组段的频数(也可以用“频率”),频数越大则直条越高。由此可见,制作直方图就是了解数据的第一步,化繁为简,将具体的数值转换为一个个组段区间,从而对数据的情况有一个大致的了解。
原文:每日丁点 | 频数表和直方图:走进数据的第一步
4. 集中趋势和离散趋势
前文我们谈到,拿到整理好的数据的第一步是制作频数表和直方图,从中我们可以大概知道数据的分布情况,也就是说,能看出大多数的数会集中在哪儿。
这在统计学中称作集中趋势(central tendency),我的理解就是“数据往哪里集中”。
教科书的定义是“指某一组数据向某一中心值靠拢的趋势,反映了一组数据中心点的位置,也是频数分布表和直方图中高峰所在的位置,即频数最大的组段”。
为什么数据会表现出集中趋势呢?因为具有“同质性”。从字面上可以直接理解为调查对象具有相同点。这些共同点使得个体对某项事物的感知(比如生命质量)有趋同的作用,反映在数据上就表现为“集中趋势”。
与集中趋势相对应的另一个特征是“离散趋势”。大部分数据虽然会集中在某个区间,但并不是所有数据都这样集中。从某数据的“集中位置”往左右两边延伸,距离越远,数据与集中位置的差异就越大,由此,统计学上就把数据偏离集中位置的程度称作离散趋势(dispersion tendency)。
为什么会有离散趋势呢?答案是存在变异。大家虽然有很多共同点,但毕竟不是一个模子刻出来的,在某些地方存在差异,比如性格温和还是急躁、生活态度乐观还是悲观等。
原文:每日丁点 | 三张图看懂集中趋势和离散趋势
5. 集中趋势的数字表达:均数和中位数
前文我们讲解了数据的集中趋势和离散趋势,而均数和中位数就是描述数据集中趋势的最常用的指标,也称“位置测量指标”,因为它们量化的是数据的集中位置(center),表示大多数观测值所在的中心。
大家平常最熟悉的均数,全称叫“算术均数 (arithmetic mean)”计算方法自然不用多讲,但需指出的是根据数据资料的形式,均数一般有两种算法:除了把所有的观测值加和再取平均以外,还可以根据频数分布表,用各组的组中值乘以频数来计算,比如得分在40~组的频数为25,则可以直接用组中值45乘以25得出。当然,这是一种近似算法,在可以获得原始的个体数据时,还是应基于个体的数据用加和平均来算。均数不能用于偏态分布的根本原因是它对于特别大或特别小的观测值十分敏感,尤其是样本量较小的情况下,均数其实难以代表总体情况。因此,我们在拿到数据后的第一步不是算平均数,而是画频数表和直方图,直观地看看原始数据的面貌。由此,我们来看看描述集中趋势的第二个指标——中位数(M),可以说它的出现和使用就是用来弥补上述均数的这种缺陷的。要计算中位数很简单,将所有的数据从小到大排列,处于正中间位置的数就是中位数。所以在一组数据中,有一半的数据比它大,另一半比它小。不过这些需要注意的是,当样本量n为奇数时,中位数就是最中间那个数,即第(n 1)/2;而当样本量为偶数时,则中位数是中间两个数的平均数,即第n/2和第n/2 1个观测值的均数,注意不是第n/2 - 1。与均数相比,中位数还是存在明显不足的:1、中位数没有考虑大部分观测值的大小,仅仅纳入一个或两个数据,而均数的计算充分利用了全部数据的信息;2、两组数据合并时,合并后的中位数不能用原来两组的中位数表达,而均数可以通过相应的公式来计算得到新合并数据的平均;3、均数可以通过去掉极端数值进行修正(比如所谓的截尾均数),而中位数无法进行这样的修正,同时,当样本量较大时,极端值对均数的影响会减弱。因此,相比中位数,均数使用更加广泛。 通过比较中位数和均数的大小,可以帮助我们粗略判断数据的分布类型。具体而言,当数据呈对称分布时,均数和中位数接近;而当数据呈右偏态分布(即右边有个长尾巴)时,均数大于中位数;左偏态分布(尾巴在左),均数小于中位数。
原文:每日丁点 | 均数和中位数,那些你还不知道的事儿
6. 集中趋势的数字表达:几何平均数
与前文讲的算数平均数和中位数一样,几何均数也是描述数据集中趋势的指标之一,几何均数(geometric mean, G)是n个观测数据乘积的n次方根,常用于描述存在少数偏大的极端值的正偏态分布或观测值之间呈倍数关系或近似倍数关系数据的集中位置。原文:每日丁点 | 你还记得几何平均数吗?
7. 百分位数
我们对四分位数间距很熟悉,四分位数间距就是通过百分位数计算出来的,这一点我们后文再详述。除了四分位数间距,大家熟知的中位数也是一个百分位数,称第50百分位数(P50)。
关于百分位数(Percentile, Px),教科书的定义是,是指将所有n个观测值从小到大排列后,对应于x%位的那个数字。
比如由1~100的所有正整数组成的一个数据(n=100),那么这个数据的第50百分位数就是50,第10百分位数就是10,第80百分位数就是80。
也就是说,从理论上讲,计算百分位数(Px)实际上只需将数据进行一个排序,然后数数就可以。一个百分位数Px将一组数据分成两部分,有x%的数小于等于它,(100-x)%的数大于它。
不过,在现实情况中,我们有时找不到正好有x%的观测值小于或等于它,此时,百分位数Px的计算通常只能采用最为接近的一个数。
原文:每日丁点 | 简单谈谈百分位数
8. 离散趋势的数字表达
在这个系列文章的开篇,我们就讨论过统计学研究的核心问题:变异,简单理解就是差异。那么什么叫变异大、什么叫变异小呢?
变异程度,也可以理解为离散趋势,与离散趋势相对应的是我们前文讲解的集中趋势,我们知道集中趋势的主要指标是均数和中位数,而结合我们今天要讲解的离散趋势的描述指标,我们就能够全面地把握数据的分布特征。
为什么完整描述数据的分布特征就需要加入离散趋势,即变异程度呢?看看下面这个例子:
有A、B、C三组儿童的身高(cm),A组:92,96,100,104,108;B组:96,97,100,103,104;C组:96,99,100,101,104。
这三组儿童的平均身高都为100cm。但是仅根据它们的平均数相等,我们不能说这三组儿童的身高分布就是一致的:
下图可以一目了然地发现A组儿童身高的差异程度最大(即数据最离散),其次是B组,而C组儿童身高差异程度最小,数据都很接近。
虽然这里数据量很小,但三组儿童身高在变异程度上如此显著的差异似乎提示着某些信息,从而可以引领我们进一步探索。
回到今天的主题——变异程度(离散趋势)的定量描述指标。
1. 极差
首先,最简单的指标是极差(range, R),也称全距,是一组数据中最大值与最小值的差值,极差越大说明数据的变异程度越大,即数据越离散。极差一般可用来反映传染病、食物中毒的最短和最长潜伏期等。
很明显,极差是一个比较粗略的指标,它仅用到最大值和最小值的信息,不能反映组内其他数据的变异情况。另外,极差与样本例数有关。一般地,样本量越大,得到较大或较小变量值的可能性越大,极差就可能越大,故样本量相差较大时,不宜采用极差进行比较。
2. 方差或标准差
最常见的指标是方差或标准差,前者是后者的平方。