允许数据决定先验,然后使用这些先验运行模型?(例如,来自同一数据集的数据驱动先验)

机器算法验证 贝叶斯 事先的
2022-03-05 13:28:42

我的理解是,我们不应该允许我们正在分析的相同数据集来驱动/定义贝叶斯分析中的先验分布。具体来说,基于来自同一数据集的汇总统计数据定义贝叶斯分析的先验分布是不合适的,然后您将使用先验来帮助拟合模型。

有没有人碰巧知道专门讨论这个不合适的资源?我需要一些关于这个问题的引用。

2个回答

是的,这是不合适的,因为它两次使用相同的数据,导致错误的过度自信结果。这被称为“双浸”。

作为参考,我将从 Carlin 和 Louis (2000) 开始。尽管“双重浸入”一直是对经验贝叶斯的主要批评之一,但 Ch。本书的第 3 节,特别是第 3.5 节描述了使用 EB 方法估计适当置信区间的方法。

伯杰 J (2006)。\客观贝叶斯分析的案例。”贝叶斯分析,1(3),385{402

Bradley P. Carlin、Thomas A. Louis 2000。用于数据分析的贝叶斯和经验贝叶斯方法。

Darniede, WF 2011。数据相关先验的贝叶斯方法。硕士论文,俄亥俄州立大学。

Gelman, A., Carlin, JB, Stern, HS 和 Rubin, DB (2003),贝叶斯数据分析,第二版(Chapman & Hall/CRC Texts in Statistical Science),Chapman and Hall/CRC,第 2 版编。

不过,使用数据来构建先验是有意义的。

有关混合建模的示例,请参见 Richardson & Green (1997): http ://citeseer.ist.psu.edu/viewdoc/summary?doi=10.1.1.27.3667

他们使用数据点的平均值和范围作为先验的超参数,这非常有意义。

在我看来,当信息先验来自数据时,会出现两次使用数据的问题。

只要你检查你的先验分布在后验分布达到峰值的地方是“平坦的”,那么你就知道你的先验分布对结果没有很大的影响。