以初始工资、教育程度、工作经验、工作时间为X轴,工资为Y轴得到的散点图,从散点图可以看出,工资与初始工资、教育程度、工作经验之间的关系有线性趋势,但是工作时间与工资之间并没有明显的关系;故可以将工作时间这一自变量从模型中剔除。
条件④:自变量之间不存在多重共线性;
共线性是指在线性回归分析时,出现的自变量之间彼此相关的现象。使用SPSSAU进行多元线性回归时,分析结果会自动输出VIF值,用来判断是否存在共线性。一般VIF值大于10(严格大于5),则认为存在严重的共线性。有些文献也以容忍度作为判断共线性的指标,容忍度为VIF值的倒数,容忍度大于0.1则说明没有共线性(严格是大于0.2)。研究时二者选其一即可,一般描述VIF值。
SPSSAU输出结果如下:
从上表可以看出,VIF值均小于10,说明不存在共线性问题,满足条件④。如果数据存在共线性,可以手动移除相关性非常高的变量,或者改用逐步回归、岭回归等方法进行分析。多重共线性检验及其处理方法可以参考下面这篇文章:
多重共线性检验及处理方法(附案例教程)
条件⑤:各观测值之间相互独立,即残差之间不存在自相关
如果模型的残差项违背了相互独立的基本假设,称为存在自相关性。自相关性可以使用D-W检验(杜宾-瓦特森检验)进行分析。一般认为,如果D-W值在2附近,说明不存在自相关性,模型构建比较好;如果D-W值明显偏离2,说明模型具有自相关性,模型构建较差。
SPSSAU在进行线性回归分析时,输出D-W值如下:
从上表可知,本案例D-W值为1.6879接近2,所以可以认为残差不存在自相关,各观察值之间相互独立,满足条件⑤。
条件⑥:残差服从均值为0,方差为σ^2的正态分布(残差服从正态分布和方差齐)。
在进行分析时,勾选【保存预测和残差值】选项,SPSSAU会输出残差值和预测值。
- 残差正态性检验
可通过标准化残差直方图来判断残差的正态性,SPSSAU可视化->直方图,结果如下: