我应该如何关注我之前的适当性?

机器算法验证 贝叶斯 事先的 偏见 后部
2022-04-16 17:41:01

据我了解,选择先验为您的分析提供了一些起点。从那里,分布由观察到的数据形成。显然,您观察到的数据越多,先验分布和后验分布之间的差异可能就越大(特别是如果选择的先验分布不合适)。因此,对于一些较大的n来说,先验的选择基本上是无关紧要的,因为观察到的数据会压倒先验,这似乎是有道理的。事实是这样吗?如果是这样,这实际上是否会在实践中发生(或者n的值是否需要非常大以至于该点纯粹是理论上的)?

我面临的根本问题是,如果我有m个数据点并且我担心我先前的适当性,那么我可以使用哪些工具来确定我的担忧是否合法?

注意:我意识到这个问题是非常理论化的,并且实际上不可能给出具体的答案(我确信这在很大程度上取决于分布的类型,先验的不合适程度等),所以我担心这可能违反了问题必须是“基于您所面临的实际问题的实用、可回答的问题”的条件。如果是这种情况,请告诉我。我是该网站的新手,还没有真正掌握礼仪……

1个回答

无论您有多少观察结果,总是有可能创建一个会使您的数据不堪重负的先验。但是,对于任何固定的先验,随着观察次数的增加,先验的影响会缩小(Macro 在评论中指出的 0 质量情况除外)。

对于某些先验分布,有一个“先验样本大小”的概念:如果您的先验样本大小是并且您有观察值,那么后验在某种意义上是先验和数据的加权平均值,分别用加权。最容易看到这一点的地方是当 Beta 分布用作二项分布的先验时,其中先验样本大小为如果我使用npnnpnα+βBeta(4,1)之前,这有点像说我相信我的先验信息与 5 次观察一样好,并且我预计 80% 的时间会成功。如果我然后观察 5 个数据点(比如 3 个成功,2 个失败),我的后验将是 - 现在我的后验值得 10 次观察(5 个先验 + 5 个数据),平均值0.7。先验在这里仍然非常重要。但是如果我观察 500 次观察,那么我的先验基本上是无关紧要的,因为我的数据样本量是我之前的样本量的 100 倍。Beta(7,3)

另一方面,我可以先使用在这种情况下,即使我观察了 5000 个数据点,我的后验仍然主要由我的先验决定。Beta(8000,2000)

如果您的情况很容易计算这种“先验样本量”(其中还包括普通模型,例如 Normal-Normal、InverseGamma-Normal 和 Gamma-Poisson),那么这可以让您了解您的先验相对于您的数据有多大影响。否则,我会尝试在扩散先验方面犯错,因为(通常)高估你的后验不确定性比低估它更好。