收缩先验

机器算法验证 贝叶斯 特征选择 事先的
2022-03-25 19:26:06

我正在构建一个贝叶斯模型,在其中我将收缩先验(如尖峰和平板、马蹄形先验等)放在一些特征选择参数上,但我无法确定哪个是最好的。不同先验的优缺点是什么,以便我可以选择一个?

2个回答

虽然我可以为您提供大量资源,但我不太了解您的具体用例,以便您做出自己的决定:

Michael Betancourt 关于稀疏回归的案例研究:https ://betanalpha.github.io/assets/case_studies/bayes_sparse_regression.html

这是一个特别好的资源,因为他展示了不同先验对同一问题的影响。他还提供了用于分析的代码,因此自己实现它要容易得多

Piironen 和 Vehtari (2017) 对各种选择进行了很好的讨论:https ://arxiv.org/abs/1707.01694

基本点是这样的:

尖峰和平板先验在实践中可以很好地工作,但可能对先验的特定选择(例如,平板宽度)敏感。此外,如果您有很多变量,则尖峰和平板先验的计算量可能会很大。

连续收缩先验(例如,马蹄形)在计算上更容易(例如,您可以在 Stan 中实现它们,因为它们是连续的)但是在经典的马蹄形中存在诸如超参数选择是任意的以及大参数值没有被正则化等问题。这就是 Piironen 和 Vehtari 的工作所在。

您可以查看 Sarah Van Erp 等人 (2019) 的以下论文,他们讨论了不同的收缩先验(您可以从他们的论文中看到下面的表格)。

在此处输入图像描述

这些先验的形状差异很大,因此它们提供的收缩量也有很大差异。

在此处输入图像描述

除了讨论这些先验的优缺点外,作者还描述了一项模拟研究,他们比较了不同先验的性能。结果是混合的,例如,取决于是否使用了经典正则化、完全贝叶斯或经验贝叶斯方法。还值得一提的是,在许多情况下,不同先验之间的差异很小,当特征多于样本时会有一些差异。

在实践中,这不应该有那么大的差异,尤其是当样本量很大时根据您预计需要多少收缩,选择可能会相当主观。您还可以进行一些模拟研究,从先验中采样数据,并通过查看与基本真实值的差异来检查模型在此数据上的性能。在这样的研​​究中,您可能需要比较不同数量的“虚假”特征,以通过收缩归零。

† - 即模拟与您期望看到的数据相似的数据,假设您有合理的、信息丰富的先验来实现这一点。

Van Erp, S.、Oberski, DL 和 Mulder, J. (2019)。贝叶斯惩罚回归的收缩先验。数学心理学杂志,89,31-50。doi:10.1016/j.jmp.2018.12.004(预印本和增补:https ://osf.io/bf5up/ )