线性回归计算方法原理,线性回归原理简述

首页 > 影视动漫 > 作者:YD1662023-11-06 04:03:25

导读:本文将介绍什么是回归问题、解决回归问题的基本思路步骤和用机器学习模型解决回归问题的基本原理,以及如何用线性模型解决回归问题。

作者:莫凡

来源:华章科技

线性回归计算方法原理,线性回归原理简述(1)

00 线性回归:“钢铁直男”解决回归问题的正确方法

本文将介绍机器学习算法,我们选择从线性回归(Linear Regression)开始。

许多机器学习教材习惯一上来就深入算法的细节,这当然也有好处,但学习一门之前不大接触的新技术时,我更倾向于遵循学习思维三部曲的节奏:是什么(What)、为什么(Why)和怎么做(How)。如果我们之前未接触过机器学习,那么开始学习时首先问的当然是“机器学习是什么”。

所以我们选择从线性回归算法开始。线性回归算法不但结构简单,原理好懂,同时又包含了机器学习算法的典型运作特征,方便你鸟瞰机器学习算法的运行全貌,以及仔细观察每个组成构件的细节情况。如果此前你并不了解机器学习,不妨将线性回归当作机器学习算法中的入门任务。

学习新技术一直存在这样的矛盾:技术太复杂则担心学不会,技术太简单又担心是不是已经过时了。毕竟我们这个时代的计算机科学正在一日千里地飞速发展着,计算机类教材里的许多技术可能已经被新兴技术取代而退出了历史舞台,只是出于知识结构的完整性等考虑才像恐龙骨架一样在教材里保留着一席之地。

但请放心,线性回归完全不是这么一回事。线性回归是一套在当下仍然具有很高实战价值的算法,在很多现实场景中仍然发挥着不可替代的作用,不但“麻雀虽小,五脏俱全”,适合介绍剖析,而且还像麻雀一样,蹦蹦跳跳地活跃在机器学习应用的第一线。

想要说清楚线性回归,先回到“线性回归”这个吓人的名字上。在通往机器学习的路上有着各色各样的拦路虎,首先跳出来吓你一哆嗦的肯定是那些古古怪怪的术语,“线性回归”就是里面的杰出代表。

初次接触“线性回归”,可能都不知道该怎么断句,一不小心就要被吓得干脆打退堂鼓。不要怕它,首先我们将这个看似无从下手的词分成“线性”和“回归”两块,可以认为这代表了两个知识领域:前者是一类模型,叫“线性模型”;后者是一类问题,叫“回归问题”。这样“线性回归”这个词可以理解成一句话,即用线性模型来解决回归问题。

线性模型和回归问题凑成一对并非是剧本一开始就安排好的。回归问题是机器学习中非常经典的一类问题,换句话说,就是有许许多多的方法模型都会用于解决回归问题。但除了回归问题,这些方法模型也可以解决其他问题,如分类问题。

总而言之,问题和模型是多对多的关系,问题提出要求,模型给予解决,毕竟算法和人生一样,没有剧本只有惊喜,遇上了又能对得上,那才好凑成一对,所以当大家用线性模型解决回归问题时发现还挺顺手并经常用,后来干脆起了“线性回归”这个名字。

介绍完了名字,接下来就是“正菜”。大多数教材最习惯的做法是一上来就抛出各种眼花缭乱的公式,让人深深陷入术语、符号和推导等细节之中,就像是正要开始学游泳,不知就里便被扔进了大海,从此拖着长长的心理阴影。

细节很重要,但理念更重要,刚接触机器学习谁都只是一张白纸,要在上面大展宏图,首先得确定基本主题,然后勾勒整体脉络,最后才是添加细节。这也正是本书介绍机器学习的方式。

机器学习是问题导向的,正因有了问题才会设计算法,这是机器学习最主要的脉络。本文要解决的问题是回归问题,用的方法是线性回归算法。如果也将线性回归算法比作一架机器,那线性方程和偏差度量就是组成这架机器的两大构件,它们在权值更新这套机制下齐心协力地运转,最终解决回归问题。

这也是本文的要点,请格外加以关注:

线性回归计算方法原理,线性回归原理简述(2)

01 用于预测未来的回归问题

所以如果你担心接下来将要看到什么深奥的术语则大可不必,机器学习并非凭空而生的学科,这里所说的回归问题正是从统计学那里借来的救兵。

两百年前,与达尔文同时代的统计学家高尔顿在研究父代与子代的身高关系时,发现一种“趋中效应”:如果父代身高高于平均值,则子代具有更高概率比他父亲要矮,简单来说就是身高回归平均值。“回归”一词也由此而来。

在回归的世界里,万物的发展轨迹都不是一条单调向上走或向下走的直线,而是循着均值来回波动,一时会坠入低谷,但也会迎来春暖花开,而一时春风得意,也早晚会遇到坎坷挫折,峰回路转,否极泰来,从这个角度看,回归与其说是一个统计学问题,不如说更像是一个哲学问题。

那么什么是回归问题呢?回归问题的具体例子很多,简单来说各个数据点都沿着一条主轴来回波动的问题都算是回归问题。

回归问题中有许多非常接地气的问题,譬如根据历史气象记录预测明天的温度、根据历史行情预测明天股票的走势、根据历史记录预测某篇文章的点击率等都是回归问题。正因为回归问题充满了浓厚的生活气息,也就成为一类十分常见的机器学习问题。

当然,回归问题作为一种类型,有着自己独特的结构特征,在上面描述什么是回归问题时,我刻意反复使用“历史”和“预测”这两个词,原因正是记录历史值和预测未来值是回归问题的两个代表性特征。

在机器学习中,回归问题和分类问题都同属有监督学习,在数据形式上也都十分相似,那么怎么区分一个问题究竟是回归问题还是分类问题呢?

根据预测值类型的不同,预测结果可以分为两种,一种是连续的,另一种是离散的,结果是连续的就是预测问题。

这里的“连续”不是一个简单的形容词,而是有着严格的数学定义。不过额外引入太多复杂的概念反而会偏离主线,好在“连续”是一个可以感受的概念,最直接的例子就是时间,时间当然是连续的,连续型数值在编程时通常用int和float类型来表示,包括线性连续和非线性连续两种,如图3-1所示。

线性回归计算方法原理,线性回归原理简述(3)

线性回归计算方法原理,线性回归原理简述(4)

首页 1234下一页

栏目热文

文档排行

本站推荐

Copyright © 2018 - 2021 www.yd166.com., All Rights Reserved.