贝叶斯套索与普通套索

机器算法验证 r 机器学习 线性模型 套索
2022-02-02 05:00:44

不同的实现软件可用于套索我知道在不同的论坛上讨论了很多关于贝叶斯方法与常客方法的讨论。我的问题非常具体到套索 -贝叶斯套索与常规套索有什么区别或优势

以下是包中的两个实现示例:

# just example data
set.seed(1233)
X <- scale(matrix(rnorm(30),ncol=3))[,]
set.seed(12333)
Y <- matrix(rnorm(10, X%*%matrix(c(-0.2,0.5,1.5),ncol=1), sd=0.8),ncol=1)

require(monomvn) 
## Lasso regression
reg.las <- regress(X, Y, method="lasso")

## Bayesian Lasso regression
reg.blas <- blasso(X, Y)

那么我什么时候应该采用一种或其他方法呢?或者他们是一样的?

3个回答

标准 lasso 使用L1 正则化惩罚来实现回归中的稀疏性。请注意,这也称为基础追踪 (Chen & Donoho, 1994)。

在贝叶斯框架中,正则化器的选择类似于对权重的先验选择。如果使用高斯先验,则最大后验 (MAP) 解决方案将与使用 L2 惩罚时相同。虽然不是直接等效的,但拉普拉斯先验(在零附近​​急剧峰值,与在零附近平滑的高斯不同)对 L1 惩罚产生相同的收缩效果。Park & Casella (2008) 描述了贝叶斯套索。

事实上,当您在参数上放置拉普拉斯先验时,MAP 解决方案应该与使用 L1 惩罚的正则化相同(不仅仅是相似),并且拉普拉斯先验将产生与 L1 惩罚相同的收缩效果。但是,由于贝叶斯推理过程中的近似或其他数值问题,解实际上可能并不相同。

在大多数情况下,两种方法产生的结果将非常相似。根据优化方法和是否使用近似值,标准套索的计算可能比贝叶斯版本更有效。如果需要,贝叶斯会自动生成所有参数的区间估计,包括误差方差。

Chen, S. 和 Donoho, D. (1994)。基础追求。1994 年第 28 届 Asilomar 信号、系统和计算机会议论文集(第 1 卷,第 41-44 页)。IEEE。https://doi.org/10.1109/ACSSC.1994.471413

Park, T. 和 Casella, G. (2008)。贝叶斯套索。美国统计协会杂志,103 (482), 681-686。https://doi.org/10.1198/016214508000000337

“最小二乘”是指整体解决方案使每个方程的结果中产生的误差的平方和最小化。最重要的应用是数据拟合。最小二乘意义上的最佳拟合使残差平方和最小化,残差是观察值与模型提供的拟合值之间的差异。最小二乘问题分为两类:线性或普通最小二乘和非线性最小二乘,取决于残差是否在所有未知数中都是线性的。

贝叶斯线性回归是一种线性回归方法,其中统计分析是在贝叶斯推理的背景下进行的。当回归模型具有正态分布的误差时,如果假设特定形式的先验分布,则模型参数的后验概率分布可获得明确的结果。

在某些情况下,最小二乘解的正则化版本可能更可取。Tikhonov 正则化(或岭回归)添加了一个约束,即不大于给定值。在贝叶斯上下文中,这相当于在参数向量上放置一个零均值正态分布先验。β2

最小二乘法的另一种正则化版本是 Lasso(最小绝对收缩和选择算子),它使用参数向量的 L1 范数不大于给定值的约束。在贝叶斯上下文中,这相当于在参数向量上放置一个零均值拉普拉斯先验分布。β1

Lasso 和岭回归的主要区别之一是,在岭回归中,随着惩罚的增加,所有参数都会减少,但仍然保持非零,而在 Lasso 中,增加惩罚会导致越来越多的参数被驱赶到零。

本文将常规套索与贝叶斯套索和岭回归进行了比较(见图 1)。

我觉得这个问题的当前答案并没有真正回答这些问题,即“baysian (sic) lasso 与常规 lasso 的区别或优势是什么?” “他们是一样的吗?”

首先,它们不一样。

关键区别在于:贝叶斯套索试图在拉普拉斯先验下从参数的完整后验分布中进行采样,而套索试图找到后验模式(也在拉普拉斯先验下)。在实践中,贝叶斯套索的完整后验分布通常由后验均值总结,因此在实践中归结为:

贝叶斯套索试图在拉普拉斯先验下找到后验均值,而套索试图在拉普拉斯先验下找到后验模式

后验均值与后验模式的优势在于,如果拉普拉斯先验实际上是回归系数分布的真实反映,则后验均值将产生更好的预测精度(假设均方损失)。然而,这种优势在实践中是值得怀疑的,因为在许多应用中,拉普拉斯先验并不是系数分布的真实反映(通常这很难检查!)

后验模式的优点包括在计算上更容易找到(这是一个凸优化问题)。

您可能会注意到我没有回答“我什么时候应该采用一种或其他方法”。这是因为一般来说这是一个很难回答的问题。我的回答是,通常有比这两种方法更好的方法。但对此进行全面讨论需要更长的帖子。