雷锋网 AI 科技评论按,本文作者张皓,目前为南京大学计算机系机器学习与数据挖掘所(LAMDA)硕士生,研究方向为计算机视觉和机器学习,特别是视觉识别和深度学习。
个人主页:http://lamda.nju.edu.cn/zhangh/。该文为其对雷锋网 AI 科技评论的独家供稿,未经许可禁止转载。
摘要
本文介绍机器学习算法中的概率方法。概率方法会对数据的分布进行假设,对概率密度函数进行估计,并使用这个概率密度函数进行决策。本文介绍四种最常用的概率方法:线性回归 (用于回归任务)、对数几率回归 (用于二分类任务)、Softmax 回归 (用于多分类任务) 和朴素贝叶斯分类器 (用于多分类任务)。* 前三种方法属于判别式模型,而朴素贝叶斯分类器属于生成式模型。(*严格来说,前三者兼有多种解释,既可以看做是概率方法,又可以看做是非概率方法。)
本系列文章有以下特点: (a). 为了减轻读者的负担并能使尽可能多的读者从中收益,本文试图尽可能少地使用数学知识,只要求读者有基本的微积分、线性代数和概率论基础,并在第一节对关键的数学知识进行回顾和介绍。(b). 本文不省略任何推导步骤,适时补充背景知识,力图使本节内容是自足的,使机器学习的初学者也能理解本文内容。(c). 机器学习近年来发展极其迅速,已成为一个非常广袤的领域。本文无法涵盖机器学习领域的方方面面,仅就一些关键的机器学习流派的方法进行介绍。(d). 为了帮助读者巩固本文内容,或引导读者扩展相关知识,文中穿*许多问题,并在最后一节进行问题的“快问快答”。
1 准备知识
本节给出概率方法的基本流程,后续要介绍的不同的概率方法都遵循这一基本流程。
1.1 概率方法的建模流程
(1). 对p(y | x; θ) 进行概率假设。我们假定 p(y| x; θ)具有某种确定的概率分布形式,其形式被参数向量
θ 唯一地确定。
(2). 对参数 θ 进行最大后验估计。基于训练样例对概率分布的参数 θ 进行最大后验估计 (maximum a posteriori, MAP),得到需要优化的损失函数。
最大后验估计是指
其在最大化时考虑如下两项:
• 参数的先验分布 p(θ)。最大后验估计认为参数 θ 未知并且是一个随机变量,其本身服从一个先验分布 p(θ)。这个先验分布蕴含了我们关于参数的领域知识。
• 基于观测数据得到的似然 (likelihood) p(D | θ)。最大化似然是在 θ 的所有可能的取值中,找到一个能使样本属于其真实标记的概率最大的值。
最大后验估计是在考虑先验分布 p(θ) 时最大化基于观测数据得到的似然 (likelihood) p(D | θ)。
参数估计的两个不同学派的基本观点是什么? 这实际上是参数估计 (parameter estimation) 过程,统计学中的频率主义学派 (frequentist) 和贝叶斯学派(Bayesian) 提供了不同的解决方案 [3, 9] 。频率主义学派认为参数虽然未知,但却是客观存在的固定值,因此通常使用极大似然估计来确定参数值。贝叶斯学派则认为参数是未观察到的随机变量,其本身也可有分布,因此,可假定参数服从一个先验分布,然后基于观察到的数据来计算参数的后验分布。
定理 1. 最大后验估计的结果是优化如下形式的损失函数
Proof. 利用样例的独立同分布假设,
经验风险和结构风险的含义? L(θ) 的第一项称为经验风险 (empirical risk),用于描述模型与训练数据的契合程度。第二项称为结构风险 (structural risk) 或正则化项 (regularization term),源于模型的先验概率,表述了我们希望获得何种性质的模型 (例如希望获得复杂度较小的模型)。λ 称为正则化常数,对两者进行折中。
结构风险的作用? (1). 为引入领域知识和用户意图提供了途径。(2). 有助于削减假设空间,从而降低了最小化训练误差的过拟合风险。这也可理解为一种 “罚函数法”,即对不希望得到的结果施以惩罚,从而使得优化过程趋向于希望目标。ℓp 范数是常用的正则化项。
其中先验分布
的参数
转化为正则化常数 λ。
为什么最常假设参数的先验分布是高斯分布 (或最常使用
正则化)? 这是因为高斯分布 N (µ; Σ) 是所有均值和熵存在且协方差矩阵是 Σ 的分布中熵最大的分布。最大熵分布是在特定约束下具有最大不确定性的分布。在没有更多信息的情况下,那些不确定的部分都是 “等可能的”。在设计先验分布 p(θ) 时,除了我们对参数的认知 (例如均值和值域) 外,我们不想引入任何其余的偏见 (bias)。因此最大熵先验 (对应
正则化) 常被使用。除高斯先验外,还可以使用不提供信息的先验(uninformative prior),其在一定范围内均匀分布,对应的损失函数中没有结构风险这一项。
(3). 对损失函数 L(θ) 进行梯度下降优化。
梯度下降的细节留在下一节介绍。
概率方法的优缺点各是什么? 优点: 这种参数化的概率方法使参数估计变得相对简单。缺点: 参数估计结果的准确性严重依赖于所假设的概率分布形式是否符合潜在的真实数据分布。在现实应用中,欲做出能较好地接近潜在真实分布的假设,往往需在一定程度利用关于应用任务本身的经验知识,否则仅凭 “猜测”来假设概率分布形式,很可能产生误导性的结果。我们不一定非要概率式地解释这个世界,在不考虑概率的情况下,直接找到分类边界,也被称为判别函数 (discriminant function),有时甚至能比判别式模型产生更好的结果。
1.2 梯度下降
我们的目标是求解下列无约束的优化问题。
其中 L(θ) 是连续可微函数。梯度下降是一种一阶 (frstorder) 优化方法,是求解无约束优化问题最简单、最经典的求解方法之一。
梯度下降的基本思路? 梯度下降贪心地迭代式地最小化 L(θ)。梯度下降希望找到一个方向 (单位向量) v 使得 L 在这个方向下降最快,并在这个方向前进 α 的距离
定理 3. 梯度下降的更新规则是公式 5。重复这个过程,可收敛到局部极小点。
Proof. 我们需要找到下降最快的方向 v 和前进的距离α。
(1). 下降最快的方向 v。利用泰勒展开
的一阶近似,
即下降最快的方向是损失函数的负梯度方向。
(2). 前进的距离 α。我们希望在开始的时候前进距离大一些以使得收敛比较快,而在接近最小值时前进距离小一些以不错过最小值点。因此,我们设前进距离为损失函数梯度的一个倍数
其中 η 被称为学习率 (learning rate)。
向公式 7 代入最优的
和
后即得。