线性回归计算方法原理,线性回归原理简述

首页 > 影视动漫 > 作者:YD1662023-11-06 04:03:25

▲图3-1 连续型数据

相比之下,离散型数值的最大特征是缺乏中间过渡值,所以总会出现“阶跃”的现象,譬如“是”和“否”,通常用bool类型来表示,如图3-2所示。

线性回归计算方法原理,线性回归原理简述(5)

▲图3-2 离散型数据

02 怎样预测未来

回归问题是一类预测连续值的问题,而能满足这样要求的数学模型称作回归模型,我们即将介绍的线性回归就是回归模型中的一种。许多教材讲到回归模型,总是匆匆进入具体的算法当中,而往往忽略替初学者解答一个问题:为什么回归模型能够进行预测?这是一个似乎理所当然,但其实并没有那么不喻自明的问题。

许多人对“预测”的第一印象也许是传说中的一个故事,有两位高人结伴出行,晚上歇于一处破庙,甲对乙说,“睡觉别靠墙,我刚掐指一算,寅时墙会倒。”乙不屑一顾地摆摆手,“我刚才也掐指一算,墙是倒向右边,我靠左睡可保无忧。”

故事里的高人也是要看书的,不过多半看的是《奇门遁甲》,而不太可能是《机器学习》。奇门遁甲不在本书的讨论范围,那么,机器学习的回归模型能不能实现精准的预测呢?

也许可以,不过要有条件:需要有充足的历史数据。数据的重要性怎么强调都不为过,如果将机器学习算法比作一架机器,那么数据就是驱动这架机器的燃料,没有燃料驱动,机器设计得再精巧也只能是摆设。

我们不是要预测未来吗,为什么反而说历史数据这么重要呢?这个问题涉及哲学,可以追溯到世界是万事万物相互联系的统一整体,或者简单一点,不妨把预测当作一次侦探小说中的推理过程,犯罪手法总是要留下痕迹的,只要你找到相关联的线索,就能够推理出最终的结果。

当然,预测难就难在待预测对象与什么相关是未知的,不过好在其中的关联关系就藏在历史数据之中,你要做的就是通过机器学习算法把它挖掘出来。机器学习算法并不发明关系,只是关联关系的搬运工。有一种尚存争议的观点甚至说得更直白:机器学习远不是什么欲说还休的神秘技术,从数学的角度看就是拟合,对输入数据点的拟合。

机器学习算法究竟有什么魔力,竟然能够预测未来?不妨就以前面两个高人的故事为例,用科学观点来研究墙体坍塌的问题。墙体坍塌可能由许多偶然因素导致,我们都不是土木专家,不妨凭感觉随手列出几条可能导致墙坍塌的因素:

上面所列因素有三种情况:与坍塌密切相关,与坍塌有点关系,以及与坍塌毫无瓜葛。如果人工完成预测任务,当然最重要的工作就是找出哪些是密切相关的,放在第一位;哪些是有点关系的,放在参考位置;哪些毫无瓜葛,统统删掉。

可是我们又怎么知道哪些因素有哪些关系呢?这时我们就可以制作一张调查表,把砌墙用的什么材料、已经用了多久、出现了多少条裂缝等情况一一填进去,这就是前面所说的数据集中每一条样本数据的维度。就像商家很喜欢通过网上问卷来了解用户偏好一样,我们也利用调查表来了解墙体坍塌有什么“偏好”。

调查表大概形式如下表所示。

线性回归计算方法原理,线性回归原理简述(6)

最后一栏是“坍塌概率”,这是我们最关心的,也是有监督学习所必需的。这些已知的坍塌概率以及相关的维度数据将为未知概率的预测提供重要帮助。

最后也是最关键的一步,是找出各个维度和坍塌之间的概率,而这个步骤将由模型自行完成。

我们要做的只是将长长的历史数据输入回归模型,回归模型就会通过统计方法寻找墙体坍塌的关联关系,看看使用时间的长短和承建商的选择谁更重要,相关术语叫作训练模型,从数学的角度看,这个过程就是通过调节模型参数从而拟合数据。怎样调节参数来拟合数据是每一款机器学习模型都需要思考的重要问题。

模型训练完毕后,再把当前要预测的墙体情况按数据维度依次填好,回归模型就能告诉我们当前墙体坍塌概率的预测结果了。流程如图3-3所示。

线性回归计算方法原理,线性回归原理简述(7)

▲图3-3 回归模型训练示意图

可以看出,回归模型就是预测的关键,我们通过给模型“喂”数据来训练它,最终让它具备了预测的能力。也许你对“模型”这个词感到陌生又好奇,不知道该在脑海里给它分配一个什么样的形象。而图3-3的“模型”是一个大大的四方盒子,塞进数据就能吐出预测结果,像是奇幻故事中巫师手中具有神奇魔力的水晶球。

不用着急,“模型”这个词将贯穿我们对机器学习的整个巡礼,就像庆典游行里的花车正等着我们逐一观赏呢。接下来迎面走来的就是第一款模型——线性模型。

03 线性方程的“直男”本性

也许你对名为“模型”的大盒子充满期待,同时又担心会冒出一大堆数学符号,所以不敢马上掀开一窥究竟。不过,线性模型反倒更像是一个过度包装的大礼盒,大大的盒子打开一看,里面孤零零只有一样东西:线性方程。第一次接触时各种名词很容易把人绕糊涂,不急,我们先把名词之间的关系捋一捋。

前面在介绍机器学习的基本原理时,提到“假设函数”这个术语,假设函数是一类函数,所起的作用就是预测,这里的线性方程就是线性回归模型的假设函数。

别看名字挺“高冷”,其实特别简单。“线性”就是“像直线那样”,譬如线性增长就是像直线那样增长。我们知道,直线是最简单的几何图形,而线性方程说直白一点,就是能画出直线的一种方程。如果方程有性格的话,那么线性方程一定就是“直男”的典型代表。

直线方程最大的特点就是“耿直”,由始至终都是直来直去,函数图像如图3-4所示。

线性回归计算方法原理,线性回归原理简述(8)

上一页1234下一页

栏目热文

文档排行

本站推荐

Copyright © 2018 - 2021 www.yd166.com., All Rights Reserved.