数据分组的标准是什么（数值数据分组的步骤） - 原点资讯

统计思维

本节的思维偏知识类，训练的过程其实就是学习知识的过程。

下边就比较通用的统计知识和方法做简单介绍。

Lary Wasserman 在《All of Statistics》的序言里有说过概率论和统计推断的区别：

数据分组的标准是什么,数值数据分组的步骤(1)

大意：

统计学：根据手中信息，猜猜桶里有啥？

概率论：根据桶中信息，猜猜手里有啥？

一句话总结：统计是在已知数据的前提下，进行模型的归纳与推断；概率是在已知模型的基础上，对其他样本数据进行预测。

当我们做数据分析时，常需要解决的事情是，针对已知数据，做描述性统计，针对未知总体，抽样和根据样本做推断性统计。针对规律性总结，如预测未来，做统计建模。

数据分组的标准是什么,数值数据分组的步骤(2)

描述性统计：统计指标

统计变量有三类，分别是计量、等级和计数。本文主要讲计量变量的统计指标。

集中趋势

1、算术平均（arithmetic mean）：所有变量值相加除以n（注：n为数据个数）。如果只说平均数的话，不一定是指算术平均，还有几何平均、调和平均、平方平均和移动平均。当然最常用的是算术平均。

2、中位数（median）：是将一组数据按照从小到大的顺序排列，位置居中的那个数，如果总个数是偶数，则居中的有两个数，求平均即中位数。如6、8、5、9、3的中位数就是6。因为中位数只要能够按照大小排序就可以计算，故适用范围更广。因此，一组数据如果不符合对称分布，则不用平均数，考虑用中位数。

3、众数（mode）：一组数据中，出现频次最多的那个数。可能一个，也可能有多个。

离散趋势

数据分组的标准是什么,数值数据分组的步骤(3)

1、极差（range，R）：最大值减去最小值，得到数据分布的最大区间，这个指标就是极差。

极差容易受极端情况或者误差影响，不稳定，且不能代表真实水平。所以出现了四分位数间距（quartile，Q）。

2、四分位数间距（quartile，Q）：将数据平均分为四等分，用上四分之一（P75）与下四分之一（P25）之差，来反映离散趋势。前面提到的中位数即P50，另外常常提到的百分位数，其实就是同样道理把数据分成100份，以适用更多情况。第p个百分位数记为Vp，则样本中有且仅有p%的观察值小于等于Vp。

对于不服从正态分布的数据：四分位距
q1：第一个四分位数
q3：第三个四分位数
△ = q3 - q1：四分位距
x > q3 3△ 或 x < q1 - 3△：认为是极端异常值或离群值outlier

3、方差、标准差（variance、standard deviation）：离均差平方和（sum of square，SS）除以样本量。方差求开方即标准差。

4、变异系数（CV）：但当度量衡单位不一样的数据，以及单位一样但均数相差较大时的资料离散趋势比较不可以用标准差。我们用各自的离散趋势标准差除以各自的均数，这样便能很好地实现可比，这就是变异系数。

5、标准分（z-score）：对于服从正态分布的数据，z-score 是个无量纲的数，可以消除数据本身的取值范围带来的影响。一般认为z-score > 3 时，可以怀疑异常。

6、相关系数（R）：相关系数是最早由统计学家卡尔·皮尔逊设计的统计指标，是研究变量之间线性相关程度的量，一般用字母r表示。由于研究对象的不同，相关系数有多种定义方式，较为常用的是皮尔逊相关系数。

抽样与推断抽样

普查是一件难度很大的事，所以人口普查才十年搞一次。普查是稀有的，抽样是常见的。抽样方法主要有两种，简单随机抽样和分层抽样。

简单随机抽样的定义：总体有限、逐个抽取、等可能性。

分层抽样的定义：在抽样时，将总体分成互不交叉的层，按照一定的比例，从各层独立地抽取一定数量的个体，将各层取出的个体合在一起作为样本。

系统抽样的定义：系统抽样是将总体中的个体进行编号，等距分组，在第一组中按照简单随机抽样抽取第一个样本，然后按分组的间隔（抽样距）抽取其他样本，这样的方法有时也叫等距抽样或机械抽样。

简单随机抽样与分层抽样的区别和联系

抽样方法	共同点	各自特点	联系	适用范围
简单随机抽样	每个个体被抽到的可能性相等	从总体中逐个抽取	分层/分组抽样时采用简单随机抽样	总体中个体较少、个体差异较小
分层抽样		将总体分成几层，按比例抽取		总体由个体数目较大、且内部差异明显
系统抽样		随机数只有1个，但如果总体具有某一周期性变化，容易出系统性抽样问题		总体中个体数目较大

抽样方法，往往和具体业务场景捆绑紧密。都是抽样，用户抽样可能就是按用户id抽，比如用户id尾号为9的用户池；互联网产品的ABtest，则是先对流量做分桶。

假设检验

假设检验的核心是反证法和小概率思想。

反证法的思想就是将我们要研究的问题凝练为两种可能A和B，然后证明其中的A不可能发生，那就拒绝A接受B。

这里说的“不可能”就是指小概率思想，小概率事件，即发生概率P≤0.05或P≤0.01的事件。小概率事件的应用意义就是小概率事件在一次抽样过程中发生的概率为0。因此，一旦我们判断出某事件的发生概率P≤0.05，我们判断该事件在个体水平不会发生。小概率思想是统计推断的核心，是统计学价值的基础。假设检验就是反证法与小概率事件思想相结合的具体体现。

所以说，假设检验的逻辑是“概率意义上的反证法”。即在假设检验中，先假定原假设成立，在原假设成立的前提下，如果在一次观察（即一次抽样）中小概率事件发生了，根据小概率原理，这是（几乎）不可能的，因此对于原假设应予以否定。

举个例子：我们科研过程中，验证某药是否有疗效，我们将研究结局分为两种可能，H0：药物无效；H1：药物有效。然后采用对应的统计分析方法，去获取H0（药物无效）发生的概率，如果P<0.05，则H0（药物无效）不可能发生，则H1（药物有效）成立。若P>0.05，则H0（药物无效）是可能发生的，则我们不能够拒绝H0，因此尚不能认为该药无效。

两种错误

由于小概率时间发生概率小，但也不是完全不可能发生，所以说小概率事件不可能就会存在误判。有两种误判情况，叫做I类错误和II类错误。

数据分组的标准是什么,数值数据分组的步骤(4)