两个随机变量的协方差公式:
其中 E 是期望值,μ 是平均值。
注意:变量与自身的协方差就是该变量的方差。
相关性是通过每个变量的标准差对协方差进行归一化。
其中 σ 是标准差。
这种归一化抵消了单位,相关值始终在 0 和 1 之间。请注意,这是绝对值。如果两个变量之间存在负相关,则相关性介于 0 和 -1 之间。如果我们比较三个或更多变量之间的关系,最好使用相关性,因为值的范围或单位可能会导致错误的假设。
6. 中心极限定理
在包括自然科学和社会科学在内的许多领域中,当随机变量的分布未知时,使用正态分布。
中心极限定理 (CLT) 证明了为什么可以在这种情况下使用正态分布。根据 CLT,当我们从分布中抽取更多样本时,无论总体分布如何,样本平均值都将趋向于正态分布。
考虑一个案例,我们需要了解一个国家所有 20 岁人口的身高分布。收集这些数据几乎是不可能的,当然也不切实际。所以,我们抽取全国20岁的人作为样本,计算样本中人的平均身高。CLT 指出,随着我们从总体中抽取更多样本,抽样分布将接近正态分布。
为什么正态分布如此重要?正态分布用平均值和标准差来描述,这很容易计算。而且,如果我们知道正态分布的均值和标准差,我们几乎可以计算出关于它的所有内容。
7. P 值
P 值是随机变量取值的可能性。考虑我们有一个随机变量 A 和值 x。x 的 p 值是 A 取值 x 或任何具有相同或更少机会被观察到的值的概率。下图显示了 A 的概率分布,很可能会观察到 10 左右的值。随着值的升高或降低,概率会降低。
我们有另一个随机变量 B,想看看 B 是否大于 A。从 B 获得的平均样本平均值是 12.5 。12.5 的 p 值是下图中的绿色区域。绿色区域表示获得 12.5 或更极端值的概率(在我们的例子中高于 12.5)。