- 误差(e)是实际y与预测y之间的差异。预测的y表示为ŷ。每个观察都会评估这个错误。这些错误也称为残差。
- 然后将所有残差值平方并相加。这个术语被称为残差平方和(RSS)。RSS越低越好。
- R-squared的另一部分方程。为了得到另一部分,首先计算实际目标的平均值,即估计汽车价格的平均值。然后计算平均值和实际值之间的差异。然后将这些差异平方并添加。它是总和的平方(TSS)。
- R-squared a.k.a决定系数计算为 1- RSS / TSS。该度量解释了模型预测的值与实际值平均值之间的差异部分。该值介于0和1之间。它越高,模型可以更好地解释方差。
在上面的例子中,RSS是根据三辆车的预测价格计算出来的。 RSS值是41450201.63。实际价格的平均值是11,021。 TSS计算为44,444,546。 R平方计算为6.737%。对于这三个具体数据点,该模型只能解释6.73%的变化。还不够好!!
但是,对于费尔南多的模型来说,其训练集的R平方为0.7503,即75.03%。这意味着该模型可以解释更多75%的变化。
结语费尔南多现在有一个很好的模型。它在训练数据上表现令人满意。但是,有25%的数据没有得到解释。有改进的余地。如何增加更多的自变量来预测价格?当添加多于一个独立变量以预测因变量时,需要创建多变量回归模型,即多于一个变量的模型 —- 多元回归模型。
相关阅读
- 简明数据科学 第一部分:原则与过程
- 简明数据科学第二部分:统计学习的关键概念
- 简明数据科学 第三部分:假设检验