虽然岭回归和Lasso回归看起来操作差不多但是二者的原理确大不相同,岭回归是使用L2正则化,Lasso回归是使用L1正则化。接下来举个例子进行说明。
四、举例说明
利用线性回归研究居民消费价格指数y和农村居民消费价格x1,、城市居民消费价格指数x2以及商品零售价格指数x3之间的影响关系。其中数据来源于中国统计局网站(文末有案例数据可以下载)。
1.判断多重共线性
首先判断模型是否存在共线性问题,判断多重共线性的方法有很多这里利用VIF值进行判断。结果如下:
从结果可以看出,VIF值均大于10,所以存在多重共线性,需要进行处理,尽管处理多重共线性的方法有多种,这里选择比较常用的岭回归进行处理。
2.解决多重共线性
利用岭回归处理多重共线性问题,一般有两步分别如下:
岭回归分析前需要结合岭迹图确认K值;K值的选择原则是各个自变量的标准化回归系数趋于稳定时的最小K值。K值越小则偏差越小,K值为0时则为普通线性OLS回归;SPSSAU提供K值智能建议,也可通过主观识别判断选择K值;
对于K值,其越小越好,通常建议小于1;确定好K值后,即可主动输入K值,得出岭回归模型估计。
首先结合岭迹图确认K值:
结果如下:
从上图看出,以居民消费价格指数y为因变量,农村居民消费价格x1,、城市居民消费价格指数x2以及商品零售价格指数x3为自变量做岭回归,图中可以看看出,当K值为0.01时,此时自变量的标准回归系数趋于稳定,所以SPSSAU系统建议将K值取为0.01。
确定好K值后,即可主动输入K值,得出岭回归模型估计。结果如下: