注意到
因此
(3). 对损失函数 L(θ) 进行梯度下降优化。
3.2 与广义线性模型的关系
对数几率回归的假设函数
等价于
,其中
被称为几率 (odds),反映 x 作为正例的相对可能性。
被称为对数几率 (log odds, logit),公式 50 实际上在用线性回归模型的预测结果逼近真实标记的对数几率,这是对数几率回归名称的由来。
对数几率回归的优点? (1). 直接对分类的可能性进行建模 (假设 p(y | x, θ) 服从伯努利分布),无需事先假设样本 x 的分布,这样避免了假设分布不准确所带来的问题。(2). 不仅能预测出类别,还可以得到近似概率预测,对许多需要概率辅助决策的任务很有用。(3). 对数几率的目标函数是凸函数,有很好的数学性质。
引理 13. 对数几率损失函数是凸函数。
Proof. 在
的基础上,进一步可求得
是一个半正定矩阵。
3.3
的对数几率回归
为了概率假设方便,我们令二分类问题的标记
。有时,我们需要处理
形式的分类问题。对数几率损失函数需要进行相应的改动。
(1). 对 p(y | x, θ) 进行概率假设。
我们假设
那么
两者可以合并写作
(2). 对参数 θ 进行最大后验估计。
定理 14. 假设参数 θ 服从高斯先验,对参数 θ 进行最大后验估计等价于最小化如下损失函数
其中
称为对数几率损失 (logistic loss)。
Proof
(3). 对损失函数 L(θ) 进行梯度下降优化。
4 Softmax 回归
4.1 建模流程
Softmax 回归应对多分类问题,它是对数几率回归向多分类问题的推广。其建模方法包括如下三步 (参见第 1.1 节)。
(1). 对 p(y | x, θ) 进行概率假设。
对数几率回归假设 p(y | x, θ) 服从伯努利分布,Softmax 回归假设 p(y | x, θ) 服从如下分布
令
假设函数可以写成矩阵的形式
(2). 对参数 θ 进行最大后验估计。
定理 15. 假设参数 θ 服从高斯先验,对参数 θ 进行最大后验估计等价于最小化如下损失函数
其中
称为交叉熵损失 (cross-entropy loss)。
Proof