广义线性模型的优点,广义线性模型基本步骤

首页 > 大全 > 作者:YD1662023-01-14 22:51:29

则称 f 为区间 [a,b] 上的凸函数 (convex function)。当 通常是凸函数。

2 线性回归

2.1 建模流程

线性回归 (linear regression) 回归问题

。其建模方法包括如下三步 (参见第 1.1 节)。

(1). 对 p(y | x; θ) 进行概率假设。

我们假设

被称为误差项,捕获了 (a)。特征向量 x 中没有包含的因素.

(b). 随机噪声。对不同的样本

是独立同分布地从中

进行采样得到的。

线性回归的假设函数是

为了书写方便,我们记

那么公式 12 等价于

在本文其余部分我们将沿用这一简化记号。因此,

(2). 对参数 θ 进行最大后验估计。

定理 7. 假设参数 θ 服从高斯先验,对参数 θ 进行最大后验估计等价于最小化如下损失函数

其中

被称为平方损失 (square loss)。在线性回归中,平方损失就是试图找到一个超平面

,使所有样本到该超平面的欧式距离 (Euclidean distance) 之和最小。

广义线性模型的优点,广义线性模型基本步骤(5)

Proof

其中,最后一行只是为了数学计算上方便,下文推导对数几率回归和 Softmax 回归时的最后一步亦然。

(3). 对损失函数 L(θ) 进行梯度下降优化。

可以容易地得到损失函数对参数的偏导数

2.2 线性回归的闭式解

线性回归对应的平方损失的函数形式比较简单,可以通过求

直接得到最优解。

定理 8. 线性回归的闭式解为

Proof. L(θ) 可等价地写作

广义线性模型的优点,广义线性模型基本步骤(6)

那么

求解

即得。

不可逆的情况及解决方案? (1). 属性数 d 1 多于样例数 m。(2). 属性之间线性相关。通过正则化项

mλI,即使

不可逆,

mλI 仍是可逆的。

2.3 其他正则化回归模型

事实上,上文介绍的线性回归模型是岭回归 (ridge regression)。根据正则化项的不同,有三种常用的线性回归模型,见表 1。

基于 ℓ0、ℓ1 和 ℓ2 范数正则化的效果? ℓ2 范数倾向于 w 的分量取值尽量均衡,即非零分量个数尽量稠密。而 ℓ0“范数”和 ℓ1 范数则倾向于 w 的分量尽量稀疏,即非零分量个数尽量少,优化结果得到了仅采用一部分属性的模型。也就是说,基于 ℓ0“范数”和 ℓ1 范数正则化的学习方法是一种嵌入式 (embedding) 特征选择方法,其特征选择过程和学习器训练过程融为一体,两者在同一个优化过程中完成。事实上,对 w 施加稀疏约束最自然的是使用 ℓ0“范数”。但 ℓ0“范数”不连续,难以优化求解。因此常采用 ℓ1 范数来近似。

为什么 ℓ1 正则化比 ℓ2 正则化更易于获得稀疏解?假设

,则

。我们绘制出平方损失项、ℓ1 范数和 ℓ2 范数的等值线 (取值相同的点的连线),如图 1 所示。LASSO 的解要在平方损失项和正则化项之间折中,即出现在图中平方误差项等值线和正则化项等值线的相交处。从图中可以看出,采用 ℓ1 正则化时交点常出现在坐标轴上 (w2= 0), 而采用 ℓ2 正则化时交点常出现在某个象限中 (w1,w2均不为 0)。

广义线性模型的优点,广义线性模型基本步骤(7)

Figure 1: ℓ1 正则化 (红色) 比 ℓ2 正则化 (黑色) 更易于获得稀疏解。本图源于 [17]。

考虑一般的带有 ℓ1 正则化的优化目标

若 ℓ(θ) 满足 L-Lipschitz 条件,即

优化通常使用近端梯度下降 (proximal gradient descent, PGD) [1]。PGD 也是一种贪心地迭代式地最小化策略,能快速地求解基于 ℓ1 范数最小化的方法。

定理 9. 假设当前参数是

,PGD 的更新准则是

其中

Proof. 在

附近将 ℓ(θ) 进行二阶泰勒展开近似

广义线性模型的优点,广义线性模型基本步骤(8)

上一页12345下一页

栏目热文

文档排行

本站推荐

Copyright © 2018 - 2021 www.yd166.com., All Rights Reserved.