因此,随着标准差(分子)的增加,标准误差(整个分数)也会增加。这导致了较大的误差边际和更宽的置信区间。(有关标准误差的更多信息,请参见第11章。)
原始人口中的更多变异性会增加误差边际,使置信区间变得更宽。这种增加可以通过增加样本量来抵消。
计算总体均值的置信区间当正在测量的特征(如收入、智商、价格、身高、数量或重量)是数字时,大多数人希望估计总体的均值。您可以通过使用样本均值,x̅,加上或减去一个误差边际来估计总体均值,μ。其结果被称为总体均值的置信区间,μ。其公式取决于是否满足某些条件。我将条件分为两种情况,在以下部分进行说明。
情况1:已知总体标准差在情况1中,已知总体标准差。在这种情况下,总体均值的置信区间(CI)的公式为
其中x̅为样本均值,σ为总体标准差,n为样本大小,z*代表标准正态分布中与所需置信水平相对应的z*-值(参见表13-1以获取给定置信水平的z*-值)。
在这种情况下,数据要么必须来自正态分布,如果不是这样,那么n必须足够大(至少30左右),使中心极限定理发挥作用(参见第11章),从而允许在公式中使用z*-值。
要在情况1的条件下计算总体均值的CI,请执行以下操作:
- 确定置信水平并找到适当的z*-值。请参阅表13-1。
- 找到样本大小(n)的样本均值(x̅)。注意:总体标准差被假定为已知值,。
- 将z*乘以σ,然后除以n的平方根。这个计算给出了误差边际。
- 取x̅加上或减去误差边际以获得CI。CI的下限是x̅减去误差边际,而上限是x̅加上误差边际。
例如,假设您在自然资源部门工作,想要以95%的置信水平估计鱼塘中狼鳕鱼苗的平均长度。
- 因为您希望95%的置信区间,所以您的z*-值为1.96。
- 假设您随机抽取了100条鱼苗,并确定平均长度为7.5英寸;假设总体标准差为2.3英寸。这意味着x̅=7.5,σ=2.3,n = 100。
- 将1.96乘以2.3除以100的平方根(即10)。因此,误差边际为± 1.96 ∗(2.3 ÷ 10)= 1.96 ∗ 0.23 = 0.45英寸。
- 因此,鱼塘中狼鳕鱼苗平均长度的95%置信区间为7.5英寸 ± 0.45英寸(区间的下限为7.5 – 0.45 = 7.05英寸;上限为7.5 0.45 = 7.95英寸)。
在计算置信区间后,请确保您始终以非统计学家能理解的语言解释它。也就是说,用问题中的术语谈论结果,以弄清问题的上下文,统计学家称之为在“问题的背景下解释结果”。在这个例子中,您可以说:“以95%的置信度,基于我的样本数据,这整个鱼塘中狼鳕鱼苗的平均长度在7.05英寸到7.95英寸之间。”(始终确保包含适当的单位。)
情况2:总体标准差未知或n较小在许多情况下,您不知道总体标准差,或样本大小较小(小于30),您不能确定您的数据来自正态分布,因此您用样本标准差s来估计它。 (在后一种情况下,不能使用中心极限定理;请参见第11章。)在任一情况下,您不能再使用标准正态(Z-)分布的z*-值作为临界值;您必须使用比那个更大的临界值,因为不知道临界值是多少或数据较少。
在情况2中,一个总体均值的置信区间的公式为
,其中t*n – 1是t分布的关键t*-值,自由度为n – 1(其中n是样本大小)。常见置信水平的t*-值是通过t表的最后一行找到的(在附录中)。第10章详细介绍了t分布及如何使用t表。
t分布的形状与Z分布类似,只是更扁平和更分散。对于较小的n值和特定的置信水平,t分布上的关键值比Z分布上的关键值要大,因此当您使用t分布的关键值时,置信区间的误差边际将更宽。随着n值的增大,t*-值更接近z*-值。(第10章详细介绍了t分布及其与Z分布的关系。)
在情况1中的鱼塘示例中,假设您的样本大小是10而不是100,其他一切都一样。在这种情况下,t*-值来自具有10 – 1 = 9自由度的t分布。通过查看t表(在附录中),可以找到这个t*-值。在最后一行找到置信水平所在的位置,并找到95%的置信水平;这标记了您需要的列。然后找到与df = 9相对应的行。交汇行和列,您找到t* = 2.262。这是样本大小为10的95%置信区间的t*-值。 (请注意,这比表13-1中找到的z*-值1.96大。)计算置信区间,您得到
,或5.86到9.15英寸。 (第10章详细介绍了t分布及如何使用t表。)
请注意,这个置信区间比n = 100时找到的置信区间宽。除了具有较大的关键值(t*与z*相比),样本大小要小得多,这增加了误差边际,因为n在分母中。
在需要使用s的情况下,因为您不知道,置信区间也将更宽。还经常出现未知和样本大小较小的情况,此时置信区间也较宽。
确定所需的样本大小置信区间的误差边际受样本大小的影响(参见前文的“考虑样本大小”部分);随着样本大小的增加,误差边际减小。反过来看,如果您想要较小的误差边际(难道不是每个人都想要吗?),您需要更大的样本。假设您准备进行自己的调查以估计总体均值;提前知道您需要的样本大小以获得想要的误差边际会很好,这样可以为您节省金钱和时间,并且在误差边际方面可以接受结果,以免以后出现任何意外。
当您进行置信区间时,计算所需样本大小以获得所需的误差边际(MOE)的公式是