预测分布是否应该是未来数据的分布?

机器算法验证 贝叶斯 后部 分层贝叶斯 预测区间
2022-04-16 23:06:08

在频率分析中,我们将 95% 的预测区间定义为在整个实验和预测的重复抽样下,95% 的时间将包含下一次观察的区间。如果我们正在处理一个可观察的标量,我们甚至可以将其转换为一种“预测分布”(在基准意义上)。

这一切对我来说都很有意义,因为间隔和/或分布并不声称是下一个点的实际分布,只是用于做出具有正确操作特性的预测的设备。

相比之下,我刚刚读完 Gelman 等人的贝叶斯数据分析(第 3 版),我对如何解释为后验预测检查计算的后验预测区间有一个问题。在 Gelman 博士看来,我们的先验 + 可能性都构成了我们的数据生成过程的随机模型在这个模型中,“nature”首先为真实参数绘制一个,然后使用这个参数生成观测值。注意:对于我的问题的其余部分,请记住贝叶斯模型假设大自然只这样做了一次,以修复我们的参数,然后开始生成值。

现在,假设我们想通过将模型的分布与我们实验的实际值(例如大小为 100)进行比较来比较我们的拟合模型。为此,Gelman 建议我们简单地从参数的后验分布中生成M抽取,然后对于每次抽取,从相关数据模型(可能性)中抽取 100 个值的样本。这实质上是假设 100 个观测值的每个样本都从后验分布中获得自己的(不同的)参数;因此,与我们使用实际生成数据的已知(真实)参数值模拟未来值相比,所得分布通常会更宽。

这就是我的问题所在:假设我计划从同一个过程中再进行 10,000 次观察(即,预测如果我将实验扩展到 100 次以上,我会看到什么)。在这种情况下,可以证明这 10,000 个观测值不会遵循后验预测分布,因为后验预测分布包括基础参数中的可变性/随机性,但实际数据是从固定参数生成的(请参阅我上面的注释)。因此,后验预测分布不能准确描述未来观察的分布。

那么,如果是这种情况,将观察到的数据(实际上没有参数可变性)与拟合的后验预测分布进行比较,除了看到严重错误之外,如何帮助我们呢?即使我们的贝叶斯模型 100% 正确,后验预测分布仍然会比真实数据分布更宽。

有人可以解释后验预测分布实际上是在建模什么吗?


在旁边

也许我过于从字面上解释后验预测分布(但考虑到 Gelman 使用它,我可以原谅)。也许“后验预测分布”只是观察范围内的一种度量,它允许您将概率分配给一个区间。这意味着由于我们不知道参数的真实值,因此我们正在对所有可能的模型进行平均,与它们的后验概率成比例。

通过这种方式,后验预测分布更接近于混合分布,而不是数据的真实分布:分布“平均”可能的未来,但不一定反映任何特定的未来(新观察的大样本不会看起来像后验预测分布)。

这有一个重复的抽样解释:如果我们反复从我们的贝叶斯模型中抽取新的实验,条件是获得与我们实际所做的完全相同的观察,然后每次额外进行 1000 次观察,则 90% 的后验预测区间将包含大约 90%这些观察平均这就像常客预测区间一样。

1个回答

您几乎完全正确地回答了您的博客问题。我创建了一些模拟来向您展示差异所在。

另外,我对艺术术语“过度分散”有一个个人问题。预测分布并没有过度分散,它们是正确分散的,但自然界中的真实分布与它不匹配。相反,它包含在其中。

这两种类型的预测在许多微妙的方面有所不同。使用哪种类型的预测应该完全取决于您面临的实际问题以及您因不幸采样或其他问题而面临的损失。

第一个区别来自先验信息的存在。在没有先验信息的情况下,Frequentist 方法可以最大限度地减少您可能因错误估计器而面临的最大损失。当您没有框架来估计平均损失时,这是非常有利的。贝叶斯方法将经历的平均损失降至最低,但先验确实很重要。在存在先验信息的情况下,所有频率论解决方案都是不可接受的。此外,频率论方法不会产生连贯的概率,因此绝不应该在赌博情况下使用,例如估计库存需求、投资组合分配或预算。

是否应该使用贝叶斯密度或频率间隔的问题应该仅取决于您要解决的问题。

我决定通过扩展一个我经常使用的隐喻来夸大你的例子,以教授预测方法的差异。我还修改了游戏以适应 Reverand Bayes 的原始示例,因为它既有贝叶斯的解释,也有强烈的频率解释。虽然 Reverand Bayes 使用台球桌来生成均匀分布的随机数,但我使用了 R 语言函数 runif()。

使用种子 9817,我绘制了参数值 0.5171191。基于这个参数值,进行了八次伯努利试验。有四次成功。现在的问题是根据八次观察到的试验预测接下来的 10,000 次观察中的成功次数。知道参数生成的条件后,我对贝叶斯解决方案使用了均匀的先验密度。

频率主义解决方案是一个区间,但它确实会生成一个密度,从中可以创建一个区间。对于二项似然,Frequentist 预测区间是从超几何分布构造的。对于贝叶斯方法,预测是一维 Polya 分布。它们非常接近,但重要的是它们不同。

此处显示了构造区间的频率密度, 常客第一预测 而此处显示了贝叶斯密度, 贝叶斯预测 如果参数的真实值已知,则预测将是这个值。二项式

为了更好地感受,还要考虑真实值为 2/3 的情况,八次试验中有五次成功。常客是,第二

贝叶斯是,second_bayes

真正的预测是。二进制

现在关于差异,假设参数空间是离散的。让我们考虑只有三种可能性是 没有已知的方法可以在离散参数空间上构建预测区间。如果先验是均匀的,那么贝叶斯预测分布将是这样的。{1/3,1/2,2/3}.受限制的

当然,这不是唯一的区别。只有一种方法可以构建贝叶斯预测密度,但预测区间的数量是无限的,因为预测区间是建立在置信区间之上的。它们完全取决于选择的成本函数。因此,通常被称为“频率”间隔的频率间隔是在 Kullback-Leibler 散度下最小化平均损失的间隔。它不是唯一的频率预测区间方法。改变损失函数,你就会改变边界。

通常使用它的原因是贝叶斯预测密度会自动最小化 Kullback-Leibler 散度。注意我并没有说它最小化了平均背离,而是实际背离。为了说明差异,我从 样本为

1π11+(xμ)2.
cauchy_predict{1.5,1,.5}{6,1,3}. 因为对来自该分布的小样本使用最大似然估计存在问题,所以我使用了中位数。在这个样本量下,信息损失对于获得的准确性来说是微不足道的。频率间隔方法的优点之一是它可以从任何具有抽样分布的统计数据中创建,尽管如果您更改统计数据,那么您就会更改预测。众所周知,上述问题没有解析解,我通过抽取 10,000,000 个大小为 4 的样本来创建预测。我使用前三个观察结果来创建统计数据,第四个是用于预测的。

请注意,由于两个样本共享相同的中位数,并且由于两个样本具有相同的已知尺度参数,因此构建频率预测区间的分布对于两者来说是相同的。这是一个平均过程——Frequencyist 方法控制最坏情况的样本。它最小化了平均损失,但不是像贝叶斯方法那样的特定损失。

还有一些其他的细微差别。频率派预测区间均匀分布在区间上。没有密集区域。它的解释是,在重复时, % 的预测间隔将覆盖预测不少于 % 的时间。 αα

贝叶斯区间将被解释为具有包含未来样本的百分比概率。当然,对于两者而言,这取决于实际看到的先前样本。此外,贝叶斯密度的区间数是无限的,因为没有限制使用最高密度区域。如果您愿意,可以选择最低密度区域。百分比的任何密度子集预测区间。通常使用最高密度区域,因为它具有其他最优属性。ααα