问题:在变量选择中使用一个先验优于另一个的优点/缺点是什么?
假设我有这样的可能性:
我可以在其中放置任何一个先验:
或:
我把强调大多数权重为零,并且在上使用 gamma来选择“正则化”参数。
然而,我的教授一直坚持认为套索版本“缩小”了系数,实际上并没有进行适当的变量选择,即甚至相关参数也存在过度缩小。
由于我使用变分贝叶斯,我个人发现实现套索版本更容易。事实上,有效地提出的先验的稀疏贝叶斯学习论文给出了更稀疏的解决方案。
反射
自从我离开学术界以来,我有机会在这方面获得更多的实践经验。虽然尖峰 + 平板方法确实存在非零先验,因此存在可能性,但基于套索的方法(非常)快,并且只需查看权重分布的平均值即可。当您处理潜在的数百万个参数时,这很重要。
我也逐渐认识到,我的教授是个过不去 90 年代的白痴。