由于 θ 各维互不影响 (不存在交叉项),因此可以独立求解各维。
在 LASSO 的基础上进一步发展出考虑特征分组结构的 Group LASSO [14] 、考虑特征序结构的 Fused LASSO [11] 等变体。由于凸性不严格,LASSO 类方法可能产生多个解,该问题通过弹性网(elastic net)得以解决 [16] .
2.4 存在异常点数据的线性回归
一旦数据中存在异常点 (outlier),由于平方损失计算的是样本点到超平面距离的平方,远离超平面的点会对回归结果产生更大的影响,如图 2 所示。平方损失对应于假设噪声服从高斯分布
,一种应对异常点的方法是取代高斯分布为其他更加重尾 (heavy tail) 的分布,使其对异常点的容忍能力更强,例如使用拉普拉斯分布
,如图 3 所示。
Figure 2:存在异常点 (图下方的三个点) 时普通线性回归 (红色) 和稳健线性回归 (蓝色)。本图源于 [7]。
Figure 3: 高斯分布 N (0,1) (红色) 和拉普拉斯分布Lap(0,1) (蓝色)。本图源于:https://www.epixanalytics.com/modelassist/AtRisk/images/15/image632.gif
定 义 2 (拉 普 拉 斯 分 布 (Laplace distribution) Lap(µ,b)),又称为双边指数分布 (double sided exponential distribution),具有如下的概率密度函数
该分布均值为 µ,方差为
定理 10. 假设参数服从高斯先验,
对参数 θ 进行最大后验估计等价于最小化如下损失函数
Proof
由于绝对值函数不光滑,不便基于梯度下降对公式 33 进行优化。通过分离变量技巧,可将其转化为二次规划 (quadratic programming) 问题,随后调用现有的软件包进行求解。我们在下一章形式化 SVR 时还会再使用这个技巧。
定理 11. 最小化公式 33 等价于如下二次规划问题,其包含 d 1 2m 个变量,3m 个约束: