(2)参数估计和假设检验
这一章重点搞清楚似然估计和假设检验就差不多了。
似然估计:
我们常说的概率,是在已经知道随机变量某个值出现的可能性大小的情况下,来推测在某次试验中这个值会出现多少次。比如预先知道,一枚正常的硬币,在抛掷的时候,正反两面出现的可能性(概率)都是1/2,那么,如果抛掷100次,可以预测正反两面出现的次数都大概是50次;而似然性则是用于在已知抛掷100次硬币正反两面出现的次数的基础上,反过来推测正反两面出现的可能性(概率),即根据某些观测所得到的结果,对有关事物的性质的参数进行估计。
但是,我们应该得到一个更大的概率值,所以我们尝试了所有θ可取的值,使得表达式θ⁷ (1-θ)³取得最大值的θ为0.7左右,这就是似然值的含义,也就是说,在已经知道试验结果(7次正面,3次反面)的前提下,反过去推测θ值为多少(这里假设硬币正反两面出现的概率都可以不是1/2)才能使得试验结果表达式θ⁷ (1-θ)³的值达到最大。注意这一表达式使用的是乘法原理得到的结果。
清楚这个问题以后,我们就可以提出
假设检验:某机床厂加工一种零件,根据经验知道,该厂加工零件的椭圆度近似服从正态分布,其总体均值为m0=0.081mm,总体标准差为s= 0.025 。今换一种新机床进行加工,抽取n=200个零件进行检验,得到的椭圆度的均值为0.076mm。试问新机床加工零件的椭圆度的均值与以前有无显著差异?(a=0.05)
解题结果:
看到这个结果以后,还是会觉得不好理解,为什么就拒绝了假设H0呢?
这个计算结果就是告诉我们,新机床的产品(x)和老机床的总体均值之差处于上图的蓝色区域(z=-2.83)内,而上图中两边蓝色部分面积之和即a=0.05,也就是预先设定的检验水准。上述实验结果还表明,只有进一步缩小a值(比如3%),才能使得z=-2.83不包括在上面两个蓝色区间内,也就是在a更小的情况下,才能接受H0。这里的a代表显著性水平,显著性水平越低,就表示原假设越难被推翻,假设检验越保守。显著性水平越高,就表示原假设越容易被否定,假设检验越激进。也就是说,显著性水平是留给某次实验用来推翻原假设的可能性的大小。
这就好比一个女孩子对一个男孩子说,你本来追不到我(H0),但我愿意给你5%的可能性(显著性水平,意味着这个男孩子要在下雨天为她送饭)试一下,结果男孩子真做到了,也追到了这个女孩(否定了H0);而当这个女孩子只愿意给3%的可能性(意味着这个男孩子要在下雪天为她送饭)的时候,结果就没有追到一样。
(2)线性模型(回归分析)和方差分析
回归方程: