广义线性模型的优点,广义线性模型基本步骤

首页 > 大全 > 作者:YD1662023-01-14 22:51:29

(3). 对损失函数 L(θ) 进行梯度下降优化。

损失函数对应于类别 k 的参数

的导数是

写成矩阵的形式是

其中

的第 k 个元素是 1,其余元素均为 0。对比公式 20 、49 和 67 ,损失函数的梯度有相同的数学形式

区别在于假设函数

的形式不同。事实上,所有的广义线性模型都有类似于公式 68 的更新准则。

4.2 交叉熵

定义由训练集观察得到的分布,称为经验分布 (empirical distribution)。经验分布

对应于第 i 个样例,定义

。另一方面,

是由模型估计出的概率。

定理 16. 交叉熵损失旨在最小化经验分布

和学得分布

之间的交叉熵。这等价于最小化

之间的 KL 散度,迫使估计的分布

近似目标分布

Proof

广义线性模型的优点,广义线性模型基本步骤(21)

5 朴素贝叶斯分类器

朴素贝叶斯分类器 (naive Bayes classifer) 也是一种概率方法,但它是一种生成式模型。在本节,我们首先回顾生成式模型,之后介绍朴素贝叶斯分类器的建模流程。

5.1 生成式模型

判别式模型和生成式模型各是什么? 判别式模型(discriminant model) 直接对 p(y | x) 进行建模,生成式模型 (generative model) 先对联合分布 p(x, y) = p(x | y)p(y) 进行建模,然后再得到

其中,p(y) 是类先验 (prior) 概率,表达了样本空间中各类样本所占的比例。p(x | y) 称为似然 (likelihood)。p(x) 是用于归一化的证据 (evidence)。由于其和类标记无关,该项不影响 p(y | x) 的估计

如何对类先验概率和似然进行估计? 根据大数定律,当训练集包含充足的独立同分布样本时,p(y) 可通过各类样本出现的频率来进行估计

而对似然 p(x | y),由于其涉及 x 所有属性的联合概率,如果基于有限训练样本直接估计联合概率,(1). 在计算上将会遭遇组合爆炸问题。(2). 在数据上将会遭遇样本稀疏问题,很多样本取值在训练集中根本没有出现,而“未被观测到”与“出现概率为零”通常是不同的。直接按样本出现的频率来估计会有严重的困难,属性数越多,困难越严重。

判别式模型和生成式模型的优缺点? 优缺点对比如表 3 所示。

广义线性模型的优点,广义线性模型基本步骤(22)

5.2 建模流程

(1). 对 p(x | y, θ) 进行概率假设。

生成式模型的主要困难在于, 类条件概率 p(x | y)是所有属性的联合概率,难以从有限的训练样本直接估计而得。为避开这个障碍,朴素贝叶斯分类器采用了属性条件独立性假设:对已知类别,假设所有属性相互独立。也就是说,假设每个属性独立地对分类结果发生影响

此外,对连续属性,进一步假设

因此,朴素贝叶斯分类器的假设函数是

广义线性模型的优点,广义线性模型基本步骤(23)

(2). 对参数 θ 进行最大后验估计。参数 θ 包括了第 c 类样本在第 j 个属性上的高斯分布的均值

和方差

定理 17. 假设参数 θ 服从不提供信息的先验,对参数 θ 进行最大后验估计的结果是

Proof. 代入公式 76

广义线性模型的优点,广义线性模型基本步骤(24)

上一页23456下一页

栏目热文

文档排行

本站推荐

Copyright © 2018 - 2021 www.yd166.com., All Rights Reserved.