三、数据分布特征的描述
统计数据主要以集中趋势和离散趋势这两种分布特征为主。除此之外,还有因数据频数分布曲线(钟型分布、U型分布、J型分布)的对称、偏斜、尖扁等情况而具有的偏度和峰度,二者结合可判断数据的分布是否接近于正态分布。因此,要想完整的描述数据分布的特征,就必须要计算出反映变量集中趋势和离散趋势的指标值,以及峰度和偏度系数。
测定集中趋势的指标有数值平均数(算数平均数、调和平均数、几何平均数)和位置代表值(众数、中位数)。算数平均数即均值,分别有简单算术平均数、加权算数平均数、组距式数列算术平均数(与加权算术平均数算法相同,各组变量值用组中值代表,然后加权,最后除以权数总和)、相对数算数平均数(各变量值为相对数,公式同加权);调和平均数(所要加权的变量为各个变量值的倒数的算术平均数的倒数,最后除以权数总和。因为某些经济变量必须要用其它相关变量一起来表示,比如在后面进行价格指数分析时,要以报告期价格指数/基期价格指数的倒数,然后以报告期销售额总值为权数进行加权,最后除以权数总和);几何平均数(在后期的时间序列分析问题中,几何平均法是求平均发展速度的方法之一)。在单项式分组中,众数和中位数可以通过直接观测得到。但是在组距式分组中必须首先找到众数组(出现频数最多的组)和中位数组(即中间位置: ∑f/2),然后通过以上限或下限为参照的近似公式求得,其中:
图为原创
根据皮尔升经验公式,可得 均值 - Mo = 3(均值- Me)。对于呈现单峰分布的数据,如果数据的分布是对称的,则三者相等(均值=Me=Md);如果数据呈左偏(负偏)分布,数据中的极小值会使算数平均数偏向较小的一方,极小值的大小虽然不会影响中位数,但其所占项数会影响数据的中间位置从而略使中位数偏小,众数则完全不受影响,因此在一般情况下,三者关系为(均值<Me<Md );反之亦然,若呈右偏分布(正偏),则一般有( Mo< Me<均值)。
图片来源于网络,侵联删
测定集中趋势指标的作用:反映变量分布的集中趋势和一般水平;可用来比较同一现象在不同空间或不同阶段的发展水平;可用来分析现象之间的依存关系。
测度离散程度的指标被称为变异指标,其主要有两类:一类是用绝对数或平均数表示的(极差、四分位差、平均差和标准差等);另一类是用相对数表示的(离散系数、异众比率等)。其中:
图为原创
偏度与峰度分析相结合,可判断数据的分布是否接近于正态分布。其中:
图为原创
图片来源于网络,侵联删