回归分析的基本原理（回归分析的原理和方法） - 原点资讯

Cobb-douglas-regression

其中Q 代表产出， L 代表劳动力投入， K 代表资本投入。

转换的方式同上，取对数转换：

回归分析的基本原理,回归分析的原理和方法(13)

Cobb-douglas-regression-2

这正是一个标准的线性回归式。

看完「曲线」与「非线」转换成「直线」的过程，相信你也不难理解为何众多统计学家都爱用「线性回归」的名称，因为不管是怎样的函数形式，在统计学家的巧手下，都有办法合理地转成线性关系！

虽然变数转换好不好用有时候见仁见智，但是理论上提供的弹性确实非常强大。

线性这种极强的相容性，提供了一个「超级模型」所需要的基础，你一定在想，有没有可能利用这种性质把各种不同类型的回归模型全都包在同一个理论下来解读呢？

事实上，此模型就名为「广义线性模型( GLM ， Generalized Linear Model )」，广泛包纳了ANOVA 、直线回归、多项式回归、Poisson回归、 Logistic回归等等模型，不光反应变数是连续型的回归，反应变数是类别变数的模型也可以用它来解释。

还记得前面提过所有回归的共同组成吗？一个回归模型包含了三个基本元素：

1. 系统成分( Systematic Component )

2. 随机成分( Random Component )

3. 连结函数( Link Function )

这三个元素，就是广义线性模型的结构定义！

广义线性模型从两个方向将常态线性模型扩充到其他模型：

第一，随机成分假设为非常态的其他分配；

第二，将连结函数从直线方程式改为其他函数。

当随机成分Y 不限于常态，那么以类别变数为反应变数的模型就能用同一套概念运作，譬如Y 服从二项分配，那么Y 取値就成为非0 即1 ，而非常态分配的范围负无限大到正无限大之间。甚至计数资料也可以应用上来，譬如Poisson 分配。

连结函数的弹性，则允许GLM 纳入各种不同的对应关系，并利用前述的资料转换技巧，将曲线与非线案例变为直线函数，成为名符其实的「广义线性模型」。

广义线性模型的常见应用：直线回归、 ANOVA 与卡方检定

对社会科学领域的学生来说，它们三个可能是最广泛学习的方法了，但在我的学习印象中，也是最傻傻搞不清楚的方法。

ANOVA 与卡方，在大学的时候许多老师都会要求学生手动计算，主要的方法就是开表格，对ANOVA 开二维表，对卡方也是开二维表，瞎的地方则是统计量算着算着，怎么两个方法好像都差不多！

后来敎回归，才终于导入模型化的概念，但是这下可惨了，因为已经把卡方检定跟ANOVA 混在一起，我实在无法理解为什么ANOVA =直线回归？

事后想想，这个疑惑某个程度上可归因为没有细分「变数类型」的关系。

统计的资料维度，概分四类：

1. 名目变数或类别变数( Nominal Variable 、 Categorical Variable )

2. 顺序变数( Ordinal Variable )

3. 区间变数( Interval Variable )

4. 比例变数( Proportional Variable )

其中1 、 2 合称「质」变数； 3 、4 称为「量」变数。

对于具有绝对原点的比例资料相信多数人都不陌生，统计上较容易产生问题的是前面三种，譬如顺序变数，喜好分数从1~3 ， 1 为最喜欢， 3 为最不喜欢，看起来好像可以直接做加减运算，不过这样会有个隐藏的问题，因为你不晓得分数1 与分数2 的差距是不是等于分数2 到分数3 的差距。

假如不是这样的话，那么运算结果就失真了。若是单位「等距」，顺序变数就会变成「区间变数」。详细内容可参考 UCLA Academic Technology Services的网站，此处有相关说明。

在二维卡方检定当中，行列代表的两个变数都是「类别变数」，内容是运用各类别的次数，检定机率的「独立性」与比例的「同质性」，但对ANOVA 而言，比较的是各组的「平均数」差异，也就是说「组别是类别变数」，但平均数却是「连续变数」。

而直线回归，稍早之前已经解释过，应变数Y 受到残差的影响，服从「常态分配」， Y 是理所当然的「连续变数」，至于X 的变数类型…，前面没提，因为类别变数或顺序变数都适用，比例变数更是不在话下，可说「没什么限制」。

数学里，无限制的状况是很难得的，理由可以从前面「水平位移」与「转直线」的过程找到一点线索。

因为对回归线而言， X 不影响回归的分配谁属，由于有了转直线的方法， X 对Y 的真实函数对应也不太重要了，因此X 只要不与残差有相关，能符合高斯-马可夫定理，除此之外则是很自由的。

如此说来，直线回归与ANOVA 的关系就清楚多了，对仅有1 个预测变数X ，且是「属质」变数的直线回归，根本就是ANOVA 。

从这层关系来看，回归分析的检定报表使用ANOVA Table 实在是再合理不过了。

顺道一提， X为「属质」变数的回归，将会用到「虚拟变数( Dummy Variable )」的变数转换，质对量的分析，不论用ANOVA计算或者跑Dummy回归，结果会一模一样，对于GLM将ANOVA纳入广义线性的家族之中，现在你应该一点都不意外了。

另外要提醒，在其他的回归当中，是有以「类别变数」为应变数Y 的模型，所以这里特别指出「直线回归」。

最后就以一张简化的图示，来说明三者的差异，但是下图的对应式并不保证XY 具有因果关系，这又是另一个大主题了，我们改天再深入讨论。

回归分析的基本原理,回归分析的原理和方法(14)

statistics-linear-regression-overview

小结
本文原创作者：只为此心无垠，但是我强烈怀疑本文是台湾人写的，反正不是我写的，不过写的很好，分享给大家，请支持原创。

感谢大家耐心看完，自己的文章都写的很细，代码都在原文中，希望大家都可以自己做一做，请关注后私信回复“数据链接”获取所有数据和本人收集的学习资料。如果对您有用请先收藏，再点赞转发。

也欢迎大家的意见和建议，大家想了解什么统计方法都可以在文章下留言，说不定我看见了就会给你写教程哦。

如果你是一个大学本科生或研究生，如果你正在因为你的统计作业、数据分析、论文、报告、考试等发愁，如果你在使用SPSS,R，Python，Mplus, Excel中遇到任何问题，都可以联系我。因为我可以给您提供好的，详细和耐心的数据分析服务。

如果你对Z检验，t检验，方差分析，多元方差分析，回归，卡方检验，相关，多水平模型，结构方程模型，中介调节，量表信效度等等统计技巧有任何问题，请私信我，获取详细和耐心的指导。

If you are a student and you are worried about you statistical #Assignments, #Data #Analysis, #Thesis, #reports, #composing, #Quizzes, Exams.. And if you are facing problem in #SPSS, #R-Programming, #Excel, Mplus, then contact me. Because I could provide you the best services for your Data Analysis.

Are you confused with statistical Techniques like z-test, t-test, ANOVA, MANOVA, Regression, Logistic Regression, Chi-Square, Correlation, Association, SEM, multilevel model, mediation and moderation etc. for your Data Analysis...??

Then Contact Me. I will solve your Problem...

加油吧，打工人！

猜你喜欢