具体来讲,首先我们选择掷硬币 n=1000 次。如果关于均匀的原假设是正确的,那么 X 近似服从正态分布,均值为 50,标准差为 15.8:
我们需要对显著性(significance)下定义——我们有多大的可能性犯第 1 类错误(“容错”)。在这种情况下,我们拒绝了原假设 H0,但实际上原假设是正确的。出于历史上的某些原因,可能性的大小通常设定为 5% 或者 1%。本书在此选择 5%。
考虑这样的检验——如果 X 落在以下区间以外,就拒绝原假设 H0:
假设 p 实际上等于 0.5(即,此时 H0 成立),那么我们有 5% 的可能观测到 X 落在区间之外,这正是我们想要的显著性。换句话说,如果 H0 为真,那么 20 次检验中大约有 19 次会得出正确的结果。
我们常常对检验的势(power)有兴趣,它指的是不犯第 2 类错误的概率。第 2 类错误指原假设 H0 是错的,但我们的检验结果没有拒绝原假设(即“纳伪”)。为了衡量统计的势,我们需要精确衡量 H0 是错的意味着什么。(仅仅知道 p 不是 0.5 不足以为 X 的分布提供足够的信息。)具体来说,假如 p 实际上是 0.55,那么掷硬币的结果会稍微多偏向正面朝上。
在这种情形下,我们这样计算检验的势: