统计学是数据分析的基石。学了统计学,你会发现很多时候的分析并不靠谱。比如很多人都喜欢用平均数去分析一个事物的结果,但是这往往是粗糙的,不准确的。如果学了统计学,那么我们就能以更多更科学的角度看待数据。跟我一起从零开始学习吧~
首先我们学之前要知道统计学主要分为三类:
①描述性分析(均值、中位数、众数、方差、标准差等)
②预测分析(预测未来)
③推论统计(通过样本推论出总体情况)
本篇文章主要涵盖描述性统计的知识点
一、均值、中位数、众数均值大家再熟悉不过了,pandas 我们用mean 、excel我们用average,这里就不介绍了
中位数:从小到大排序,找到中间的数据。如果中间有两个数,中位数就是两个数的均值
众数:哪个数字出现次数最多,就是众数
什么时候会用到中位数、众数?
举个栗子
3,3,3,3,3,100
假如以上是一组成绩数据
平均数:(3 3 3 3 3 100)/6 = 19.16
中位数:3
众数:3
我们观察,如果用平均数的话,是不是与实际偏差过于大。众数和中位数会合理一点
数据中的100,称为离群值(明显与别的值的不同)
二、极差、中程数极差:指数字分开的有多远,最大数-最小数(结果越小,数字间越紧密)
中程数:取最大数 最小数的平均值
以上是对观察数据的集中趋势很好的一种作图方式,其实和箱线图很相似。
四、总体均值和样本均值起初遇到数学公式,心里是退缩的,其实发现,尝试着慢慢去理解,真的不难。加油~
总体均值用符号μ(读miu)来表示,公式如下:我们通常用以下的公式,表示对N个X求和,从i = 1开始,再除以N
样本均值用符号X(X上面有个—)来表示,公式如下: