介绍
当我开始我的数据科学之旅时,我探索的第一个算法是线性回归。
在理解了线性回归的概念和算法的工作原理之后,我非常兴奋地使用它并在问题陈述中做出预测。我相信你们大多数人也会这么做的。但是一旦我们建立了模型,下一步是什么呢?
接下来是棘手的部分。一旦我们建立了模型,下一步就是评估它的性能。毋庸置疑,模型评价是一项关键性的任务,它凸显了模型的不足。
选择最合适的评价指标是一个关键的任务。而且,我遇到了两个重要的指标:除了MAE/MSE/RMSE,有R方和调整R方。这两者有什么区别?我应该用哪一个?
R方和调整R方是两个评估指标,对于任何一个数据科学的追求者来说,这两个指标可能会让他们感到困惑。
它们对评估回归问题都非常重要,我们将深入了解和比较它们。它们各有利弊,我们将在本文中详细讨论。
目录
- 残差平方和
- 了解R方统计量
- 关于R方统计量的问题
- 调整R方统计量
残差平方和
为了清楚地理解这些概念,我们将讨论一个简单的回归问题。在这里,我们试图根据“花在学习上的时间”来预测“获得的分数”。学习时间是我们的自变量,考试成绩是我们的因变量或目标变量。
我们可以绘制一个简单的回归图来可视化这些数据。
黄点代表数据点,蓝线是我们预测的回归线。如你所见,我们的回归模型并不能完美地预测所有的数据点。
那么我们如何利用这些数据来评估回归线的预测呢?我们可以从确定数据点的残差开始。
数据中某一点的残差是实际值与线性回归模型预测值之间的差值。
残差图告诉我们回归模型是否适合数据。残差的平方实际上是回归模型优化的目标函数。
利用残差值,我们可以确定残差的平方和,也称为残差平方和或RSS。。