statistics-regression-question
刚开始很令人纳闷,明明就可以清清楚楚划分成三种情形,统计学家何苦老爱用个意义不定的「线性」一词来描述回归…?不过这是有原因的。
到目前为止,本文使用的范例都是「直线」。
不如来看看「非直线」的回归能不能给我们一些线索:
statistics-simple-non-linear-regression-example
抛物线回归不难懂,是很常见的曲线,但是多项式回归就很复杂了,随着次方项增高,结果可能是一平面、曲面或者无法图像化,总之,对应关系根本就不是线型。你可能会有点意外的是,其实,这两个式子,「曲线」与「不是线」的回归,都是「线性」回归。
关键在于变数转换!
用抛物线回归的例子,只要设新变数X' = X^2 ,再换入原先的公式,不就令「二阶式」变为「一阶式」了吗?有样学样,交互作用以及更高阶项次也都能比照办理。
总之只要回归式表示成「相加式」,不管是怎样的对应关系,曲线或者非线都可以透过代入新变数转成直线。
至于「相乘式」的回归…,没错,还是线性回归。不过转换的方式不一样。
我们曾在《 Data Transformation的一些探讨》中看过这个公式:
statistics-simple-linear-regression-data-transformation
statistics-simple-linear-regression-data-transformation-2
是的,该式加入残差项就成为「相乘式」的回归,转换后的e' = log( e ) 。
在前面提到的《 Data Transformation的一些探讨》一文中,笔者没有特意以「回归模型」为例的原因是,这个资料变造手法即使在非模型分析,也可能产生不错的作用,当然了,资料转换在回归中是很重要的技巧。
再换个例子,以经济学柯布-道格拉斯生产函数( Cobb-Douglas Production Function )为例并加入残差项如下: