- 本案例是分布拟合检验预测、单因素方差分析One-Way ANOVA的基础前导篇。基本概念不在此赘述。
- 本案例分析所用数据为“19财管管理会计成绩.xlsx”。
- 该数据可以在我的百度网盘上下载。
链接:https://pan.baidu.com/s/1ARmBISe_xask-qqaNyaM1A
提取码:qa0f
- 本案例为本人学习笔记,数据及分析结论供学习和教学参考之用。
描述性统计,是指通过数据计算“统计量”用来描述数据特征的活动。描述性统计分析主要包括以下几个方面的分析:
- 频数分析
- 集中趋势分析
- 离散程度分析
- 数据分布
- 绘制统计图
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
这个引入库的动作,是首先要做的。
read_excel()读入待分析数据df = pd.read_excel('19财管管理会计成绩.xlsx',sheet_name='19财管管理会计')
数据集:"19财管管理会计成绩.xlsx",两列,class为分类变量,glkj为可度量变量。
- class:班级。19财管1—19财管6。分类变量。
- glkj:管理会计,该科目考试成绩。
# 分组聚合,统计均值、次数、标准差等
stats = df.groupby('class')['glkj'].agg(['mean', 'count', 'std','min','max'])
# 计算0.05水平下的置信区间
ci95_hi = []
ci95_lo = []
co_v = []
for i in stats.index:
m, c, s = stats.loc[i,['mean','count','std']]
ci95_hi.append(m 1.96 * s/math.sqrt(c))
ci95_lo.append(m - 1.96 * s/math.sqrt(c))
co_v.append(s/m)
stats['ci95_LB'] = ci95_lo
stats['ci95_UB'] = ci95_hi
stats['c.v'] = co_v
统计量stats
- mean:均值
std : 标准差
min/max : 最小/最大值 - median : 中位数
- skew : 偏度
- ci : 置信区间
- c.v : 变异系数
上述“统计量”的基本概念计算方法及计算公式网上讲解很多,在此就不具体列出了,需要的请百度。
统计量如下图所示: