此外,为了结合高斯分布 (对应平凡损失) 容易优化和拉普拉斯分布 (对应 ℓ1 损失) 可以应对异常值的优点,Huber 损失[5]在误差接近 0 时为平方损失,在误差比较大时接近 ℓ1 损失,如图 4 所示。
Huber 损失处处可微,使用基于梯度的方法对 Huber 损失进行优化会比使用拉普拉斯分布更快。
Figure 4: ℓ2 损失 (红色)、ℓ1 损失 (蓝色) 和 Huber 损失 (绿色)。本图源于 [7]。
2.5 广义线性模型
线性回归利用属性的线性组合
进行预测。除了直接利用
逼近 y 外,还可以使模型的预测值逼近 y 的衍生物。考虑单调可微函数 g,令
这样得到的模型称为广义线性模型 (generalized linear model),其中函数 g 被称为联系函数 (link function)。本文介绍的线性回归、对数几率回归和 Softmax 回归都属于广义线性模型,如表 2 所示。
广义线性模型的优点? (1). 形式简单、易于建模。(2). 很好的可解释性。
直观表达了各属性在预测中的重要性。
如何利用广义线性模型解决非线性问题? (1). 引入层级结构。例如深度学习是对样本 x 进行逐层加工,将初始的低层表示转化为高层特征表示后使用线性分类器。(2). 高维映射。例如核方法将 x 映射到一个高维空间 ϕ(x) 后使用线性分类器。
3 对数几率回归
3.1 建模流程
对数几率回归 (logistic regression) 应对二分类问题。其建模方法包括如下三步 (参见第 1.1 节)。
(1). 对 p(y | x, θ) 进行概率假设。
对二分类任务,标记
,而
产生的是实数值,于是,我们需要找到一个单调可微函数 g 将
转化为
。最理想的是用单位阶跃函数
当
大于 0 时输出 1,小于 0 时输出 0。但是,单位阶跃函数不连续不可微,无法利用梯度下降方法进行优化。因此,我们希望找到一个能在一定程度上近似单位阶跃函数并单调可微的替代函数 (surrogate function)。
Figure 5: 单位阶跃函数 (红色) 与对数几率函数 (黑色)。本图源于 [17]。
如图 5 所示,对数几率函数 (sigmoid function) 正是这样一个常用的替代函数
我们将其视为后验概率估计,即
那么
两者可以合并写作
也就是说,y | x,θ 服从伯努利分布 Ber(sigm
)。
(2). 对参数 θ 进行最大后验估计。
定理 12. 假设参数 θ 服从高斯先验,对参数 θ 进行最大后验估计等价于最小化如下损失函数
其中
称为对数几率损失 (logistic loss)。
Proof