数据分析中的统计学
统计学是数据分析必须掌握的基础知识,它是通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。统计学用到了大量的数学及其它学科的专业知识,其应用范围几乎覆盖了社会科学和自然科学的各个领域,而在数据量极大的互联网领域也不例外,因此扎实的统计学基础是一个优秀的数据分析师必备的技能。统计学的知识包括了图形信息化、数据的集中趋势、概率计算、排列组合、连续型概率分布、离散型概率分布、假设检验、相关和回归等知识,对于具体的知识点,楼主就不一一介绍了,感兴趣的同学请参考书籍《深入浅出统计学》、《统计学:从数据到结论》,今天的分享主要会选取统计学中几个容易混淆的、比较重要的知识点进行分享。
PS:本部分知识点整理自《深入浅出统计学》以及网友们分享的博客、知乎等,转载的部分已经在原文加引同时在文末的参考链接部分已经标出,欢迎大家参读网友的原作。
01
方差、协方差、R、R2
1.方差、标准差以及标准差系数
(1) 方差:所有样本各自减平均数的差,平方后在累计求和,最后在除以样本个数。
(2) 标准差:所有样本各自减平均数的差,平方后在累计求和,再除以样本个数,最后再开方。
(3) 标准差系数:所有样本各自减平均数的差,平方后在累计求和,再除以样本个数再开方,最后除以样本平均值。
2.协方差
协方差通俗的理解就是两个变量在变化过程中是同向还是反向?同向或反向的程度如何?
你变大,同时我也变大,说明两个变量是同向变化,这时协方差就为正;
你变大,同时我变小,说明两个变量是反向变化的,这时协方差为负
协方差的计算公式:
如果有X,Y两个变量,每个时刻的X与其均值之差’乘以‘Y与其均值之差’得到一个乘积,在对这时刻的乘积求和并求出均值。
3.相关系数R
相关系数分三种,spearman,pearson, kendall
协方差的值会随着变量量纲的变化而变化(covarianceis not scale invariant),所以,这才提出了pearson相关系数的概念:
相关系数(皮尔森相关系数):X,Y的协方差除以X,Y的标准差的乘积。
解释:自变量X和因变量Y的协方差/标准差的乘积。
*协方差:两个变量变化是同方向的还是异方向的。X高Y也高,协方差就是正,相反,则是负。
*为什么要除标准差:标准化。即消除了X和Y自身变化的影响,只讨论两者之间关系。
*因此,相关系数是一种特殊的协方差。
4.决定系数R2
下面来说决定系数,R方一般用在回归模型用于评估预测值和实际值的符合程度,R2的定义如下:
决定系数=回归平方和/总平方和=1-残差平方和/总平方和
02
极限中心定理和大数定理
大数定律讲的是样本均值收敛到总体均值,说白了就是期望。
中心极限定理告诉我们,当样本足够大时,样本均值的分布会慢慢变成正态分布。
中心极限定理收敛至大数定律。
1.中心极限定理
中心极限定理指的是给定一个任意分布的总体。我每次从这些总体中随机抽取 n 个抽样,一共抽 m 次。然后把这 m 组抽样分别求出平均值。这些平均值的分布接近正态分布。
下图形象的说明了中心极限定理
当样本量N逐渐趋于无穷大时,N个抽样样本的均值的频数逐渐趋于正态分布,其对原总体的分布不做任何要求,意味着无论总体是什么分布,其抽样样本的均值的频数的分布都随着抽样数的增多而趋于正态分布,如上图,这个正态分布的u会越来越逼近总体均值,并且其方差满足a^2/n,a为总体的标准差,注意抽样样本要多次抽取,一个容量为N的抽样样本是无法构成分布的。
2、大数定律
大数定律是指在随机试验中,每次出现的结果不同,但是大量重复试验出现的结果的平均值却几乎总是接近于某个确定的值。
ps:
1.总体的分布不要求是正态分布
2.抽取的样本要足够大(>=30)
3、数学理论
数学理论
我们假设有n个独立随机变量,令他们的和为:
那么大数定律(以一般的大数定律为例),它的公式为:
而中心极限定理的公式为: