为了理解回归背后的动机,让我们考虑以下简单的例子。 下面的散点图显示了2001年至2012年美国大学毕业生的数量。
现在根据现有的数据,如果有人问你2018年有多少名大学毕业生获得硕士学位呢? 可以看出,具有硕士学位的大学毕业生数量几乎与年份呈线性增长。 因此,通过简单的视觉分析,我们可以粗略估计该数字在 200万 到 210 万之间。 我们来看看实际数字。 下图绘制了从 2001 年到 2018 年的同一变量。可以看出,我们的预测数字与实际值大致相符。
由于这是一个比较简单的问题(将一条线拟合到数据),我们的大脑很容易就能做到这一点。 这种将函数拟合到一组数据点的过程称为回归分析(regression analysis)。
1、什么是回归分析?推荐:用 NSDT设计器 快速搭建可编程3D场景。
回归分析是估计因变量和自变量之间关系的过程。 简而言之,这意味着将选定函数族中的函数拟合到某个误差函数下的采样数据。 回归分析是机器学习领域用于预测的最基本工具之一。 使用回归,你可以在可用数据上拟合函数,并尝试预测未来或保留数据点的结果。 这种功能拟合有两个目的。
- 可以估计数据范围内的缺失数据(插值)
- 可以估计数据范围之外的未来数据(外推法)
回归分析的一些现实示例包括根据房屋特征预测房屋价格、预测 SAT/GRE 分数对大学录取的影响、根据输入参数预测销售、预测天气等。
让我们考虑一下前面大学毕业生的例子。
- 插值(interpolation):假设我们可以访问一些稀疏的数据,其中我们知道每 4 年大学毕业生的数量,如下面的散点图所示。
我们想要估计其间所有缺失年份的大学毕业生人数。 我们可以通过将一条线拟合到有限的可用数据点来做到这一点。 这个过程称为插值(interpolation)。