贝叶斯套索与尖峰和平板

机器算法验证 贝叶斯 特征选择
2022-01-31 23:59:31

问题:在变量选择中使用一个先验优于另一个的优点/缺点是什么?

假设我有这样的可能性: 我可以在其中放置任何一个先验: 或:

yN(Xw,σ2I)
wiπδ0+(1π)N(0,100)π=0.9,
wiexp(λ|wi|)λΓ(1,1).

我把强调大多数权重为零,并且在上使用 gamma来选择“正则化”参数。π=0.9λ

然而,我的教授一直坚持认为套索版本“缩小”了系数,实际上并没有进行适当的变量选择,即甚至相关参数也存在过度缩小。

由于我使用变分贝叶斯,我个人发现实现套索版本更容易。事实上,有效地提出的先验的稀疏贝叶斯学习论文给出了更稀疏的解决方案。1|wi|

反射

自从我离开学术界以来,我有机会在这方面获得更多的实践经验。虽然尖峰 + 平板方法确实存在非零先验,因此存在可能性,但基于套索的方法(非常)快,并且只需查看权重分布的平均值即可。当您处理潜在的数百万个参数时,这很重要。

我也逐渐认识到,我的教授是个过不去 90 年代的白痴。

2个回答

这两种方法(LASSO 与spike-and-slab)都可以解释为您指定不同参数的贝叶斯估计问题。主要区别之一是 LASSO 方法没有将任何点质量放在先验为零(即,参数几乎肯定是非零的先验),而钉板法将大量点质量放在在零。

在我看来,spike-and-slab 方法的主要优点是它非常适合参数数量多于数据点数量的问题,并且您希望完全消除大量参数从模型。因为这种方法在先验中将一个大的点质量置于零,所以它将产生倾向于只涉及一小部分参数的后验估计,希望避免数据的过度拟合。

当您的教授告诉您前者没有执行变量选择方法时,他的意思可能是这个。在 LASSO 下,每个参数几乎肯定是非零先验的(即,它们都在模型中)。由于在参数支持上的可能性也是非零的,这也意味着每个都是几乎肯定是非零先验的(即,它们都在模型中)。现在,您可以用假设检验对此进行补充,并以这种方式将参数排除在模型之外,但这将是对贝叶斯模型施加的额外检验。

贝叶斯估计的结果将反映数据的贡献和先验的贡献。自然地,相对于不那么集中的先验分布(如 LASSO),更紧密地集中在零附近的先验分布(如尖峰和平板)确实会“缩小”结果参数估计量。当然,这种“缩小”只是您指定的先前信息的效果。LASSO 先验的形状意味着相对于更平坦的先验,它正在将所有参数估计值缩小到平均值。

我支持@Ben的回答。从我简化的角度来看,spike 和slab 非常适合高维数据集,因为spike 集中在零处,而不是有一个加宽的法线或拉普拉斯先验,这会使后验回归变量的收缩小于spike 和slab 先验。因此,尖峰和平板会产生更稀疏的回归量集,有助于降低过度拟合的可能性。