分别用什么描述总体和样本的特征（总体和样本各有什么特点） - 原点资讯

两个随机变量的协方差公式：

分别用什么描述总体和样本的特征,总体和样本各有什么特点(5)

其中 E 是期望值，μ 是平均值。

注意：变量与自身的协方差就是该变量的方差。

相关性是通过每个变量的标准差对协方差进行归一化。

分别用什么描述总体和样本的特征,总体和样本各有什么特点(6)

其中 σ 是标准差。

这种归一化抵消了单位，相关值始终在 0 和 1 之间。请注意，这是绝对值。如果两个变量之间存在负相关，则相关性介于 0 和 -1 之间。如果我们比较三个或更多变量之间的关系，最好使用相关性，因为值的范围或单位可能会导致错误的假设。

6. 中心极限定理

在包括自然科学和社会科学在内的许多领域中，当随机变量的分布未知时，使用正态分布。

中心极限定理 (CLT) 证明了为什么可以在这种情况下使用正态分布。根据 CLT，当我们从分布中抽取更多样本时，无论总体分布如何，样本平均值都将趋向于正态分布。

考虑一个案例，我们需要了解一个国家所有 20 岁人口的身高分布。收集这些数据几乎是不可能的，当然也不切实际。所以，我们抽取全国20岁的人作为样本，计算样本中人的平均身高。CLT 指出，随着我们从总体中抽取更多样本，抽样分布将接近正态分布。

为什么正态分布如此重要？正态分布用平均值和标准差来描述，这很容易计算。而且，如果我们知道正态分布的均值和标准差，我们几乎可以计算出关于它的所有内容。

7. P 值

P 值是随机变量取值的可能性。考虑我们有一个随机变量 A 和值 x。x 的 p 值是 A 取值 x 或任何具有相同或更少机会被观察到的值的概率。下图显示了 A 的概率分布，很可能会观察到 10 左右的值。随着值的升高或降低，概率会降低。

分别用什么描述总体和样本的特征,总体和样本各有什么特点(7)

我们有另一个随机变量 B，想看看 B 是否大于 A。从 B 获得的平均样本平均值是 12.5 。12.5 的 p 值是下图中的绿色区域。绿色区域表示获得 12.5 或更极端值的概率（在我们的例子中高于 12.5）。

分别用什么描述总体和样本的特征,总体和样本各有什么特点(8)

分别用什么描述总体和样本的特征,总体和样本各有什么特点