一、案例与数据
一家大型商业银行在多地区设有分行,其业务主要是进行基础设施建设,国家重点项目建设,固定资产投资等项目的贷款。近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例的提高,这给银行业务的发展带来较大压力。为弄清楚不良贷款形成的原因,管理者希望利用银行业务的有关数据做一些统计分析,想要知道“本年累积应收贷款”、 “贷款项目个数”以及“本年固定资产投资额”对“不良贷款”是否有影响,如果有影响,它们之间谁的影响更大?部分数据如下(数据虚构无实际意义):
二、分析问题
管理者想要研究“本年累积应收贷款”、 “贷款项目个数”以及“本年固定资产投资额”对“不良贷款”是否有影响,如果有影响,分析影响程度,其中以“不良贷款”作为因变量, “本年累积应收贷款”、 “贷款项目个数”以及“本年固定资产投资额”作为自变量研究影响关系,可以考虑线性回归、方差分析等,由于自变量和因变量均为定量变量,所以选择线性回归进行分析。
三、初探基本关系
在进行线性回归之前,首先需要对数据进行查看基本关系,然后进行检验数据是否满足参与线性回归分析的基本条件。基本关系包括数据的相关关系以及共线性的查看。
1.相关关系
在回归分析前一般需要做相关分析,因为有了相关关系,才可能有回归影响关系;如果没有相关关系,是不应该有回归影响关系的。所以进行初步查看,结果如下:
将“本年累计应收贷款”、“贷款项目个数”、“本年固定资产投资额”以及“不良贷款”之间进行两两相关分析。除了“本年固定资产投资额”和“不良贷款”之间p值大于0.05,其余两两之间分析p值均小于0.05,所以不良贷款与本年固定资产投资额没有相关关系,也即说明进行回归分析时不放入本年固定资产投资额。接下来查看数据是否存在共线性。
2.共线性
共线性是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系(例如相关系数大于0.8)而使模型估计失真或难以估计准确。共线性的存在可能会降低估计的精准度,并且稳定性也会降低。无法判断单独变量的影响。回归方程的标准误差增大。变量显著性可能会失去意义等等。所以在分析前需要对共线性问题进行检查。