晓查 发自 凹非寺
量子位 出品 | 公众号 QbitAI
如果想从事数据科学,但是又没有数学背景,那么有多少数学知识是做数据科学所必须的?
统计学是学习数据科学绕不开的一门数学基础课程,但数据科学也经常会涉及数学中的其他领域。
数据科学使用算法进行预测,这些算法称为机器学习算法,有数百种之多。有人总结了数据科学中最常用的6种算法,已经掌握它们分别需要哪些数学知识。
朴素贝叶斯分类器
朴素贝叶斯分类器(Naive Bayes classifier)是一种简单的概率分类器,它基于特征之间相互独立的假设,以贝叶斯定理为基础。
贝叶斯定理的数学公式为:
其中A、B表示两个事件,且P(B)不等于0。各个部分具体的含义为:
1、P(A|B)是条件概率,它是事件B发生后事件A发生的概率。
2、P(B|A)也是一个条件概率,它是事件A发生后事件B发生的概率。事件发生的可能性 发生了 是真的。
3、P(A)和P(B)是各自发生的概率,A、B两个事件彼此独立。
需要的数学知识:
如果你想要了解朴素贝叶斯分类器,以及贝叶斯定理的所有用法,只需学习概率课程就足够了。
线性回归
线性回归是最基本的回归类型,它用来理解两个连续变量之间的关系。在简单线性回归的情况下,获取一组数据点并绘制可用于预测未来的趋势线。
线性回归是参数化机器学习的一个例子,训练过程最终使机器学习找到最接近于训练集的数学函数,然后可以使用该函数来预测未来的结果。在机器学习中,数学函数被称为模型。在线性回归的情况下,模型可以表示为:
a1, a1, ……,an表示对数据集的参数值,x1, x1, ……,xn表示在线性模型中使用的特征值。
线性回归的目标是找到描述特征值和目标值之间关系的最佳参数值。换句话说,就是找到一条最适合数据的线,可以外推趋势以预测未来结果。
为了找到线性回归模型的最佳参数,我们希望让残差平方和(residual sum of squares)最小化。残差通常被称为误差,它用来描述预测值和真实值之间的差异。残差平方和的公式可表示为: