有哪些非贝叶斯方法可用于预测推理?

机器算法验证 预言 推理 预测区间
2022-02-12 19:54:17

在贝叶斯推理中,未来数据的预测分布是通过整合未知参数得出的;对这些参数的后验分布进行积分得到后验预测分布——未来数据的分布以已经观察到的数据为条件。有哪些用于预测推理的非贝叶斯方法考虑到参数估计中的不确定性(即不只是将最大似然估计或其他任何东西插入到密度函数中)?

每个人都知道如何计算线性回归后的预测区间,但是计算背后的原理是什么以及如何将它们应用于其他情况(例如,在从数据中估计速率参数后计算新指数变量的精确预测区间)?

2个回答

非贝叶斯预测推理(除了 SLR 案例)是一个相对较新的领域。在“非贝叶斯”的标题下,我们可以将这些方法细分为“经典”常客与那些基于“可能性”的方法。

经典频率论预测

如您所知,频率论中的“金标准”是在重复采样下实现标称覆盖。例如,我们希望 95% 的置信区域包含来自同一基础总体的 95% 样本中的真实参数。或者,我们期望在假设检验中犯的 I 类和 II 类错误平均等于αβ. 最后,与这个问题最密切相关的是,我们预计 95% 的预测区间将在 95% 的时间内包含下一个样本点

现在,我通常对在大多数统计课程中如何呈现和教授经典 PI 有疑问,因为压倒性的趋势是将这些解释为贝叶斯后验预测区间,而它们显然不是。最根本的是,他们在谈论不同的概率!贝叶斯没有对其数量的重复抽样性能提出任何要求(否则,他们将成为常客)。其次,贝叶斯 PI 实际上在精神上完成了与经典容差区间更相似的事情,而不是经典预测区间。

供参考:容差区间需要由两个概率指定:置信度和覆盖率。置信度告诉我们它在重复样本中正确的频率。覆盖率告诉我们真实分布下区间的最小 概率测度(与 PI 相反,PI 给出了预期的概率测度......再次在重复采样下)。这基本上也是贝叶斯 PI 试图做的事情,但没有任何重复抽样声明。

所以,Stats 101 Simple Linear Regression 的基本逻辑是在正态性假设下推导出 PI 的重复采样属性。它的常客+高斯方法通常被认为是“经典的”,并在介绍统计课程中教授。这是基于结果计算的简单性(参见维基百科以获得很好的概述)。

非高斯概率分布通常是有问题的,因为它们可能缺少可以巧妙地反转以获得区间的关键量。因此,这些分布没有“精确”的方法,通常是因为区间的属性取决于真正的基础参数。

承认这种无能,用似然法出现了另一类预测(以及推理和估计)。

基于似然的推理

与许多现代统计概念一样,基于可能性的方法可以追溯到 Ronald Fisher。该学派的基本思想是,除了特殊情况外,我们的统计推断在逻辑上比我们处理正态分布(其参数估计是正交的)推断时更弱,在那里我们可以做出准确的概率陈述。在这种推论观点中,人们应该真正避免关于概率的陈述,除非是在确切的情况下,否则,应该对可能性做出陈述,并承认人们不知道错误的确切概率(在频率论意义上)。

因此,我们可以将可能性视为类似于贝叶斯概率,但没有可积性要求或可能与频率论概率混淆。它的解释完全是主观的……尽管对于单参数推断,通常建议使用 0.15 的似然比。

然而,人们并不经常看到明确给出“似然区间”的论文。为什么?看来这在很大程度上是一个社会学问题,因为我们都已经习惯了基于概率的置信度陈述。相反,您经常看到的是作者指的是某某的“近似”或“渐近”置信区间。这些区间主要来自似然方法,我们依赖似然比的渐近卡方分布,就像我们依赖样本均值的渐近正态性一样。

有了这个“修复”,我们现在可以构建“近似”95% 置信区域,其逻辑一致性几乎与贝叶斯算法一样多。

可能性框架中从 CI 到 PI

上述可能性方法的成功和易用性引发了关于如何将其扩展到预测的想法。这里给出了一篇非常好的调查文章(我不会复制它的优秀报道)。它可以追溯到 1970 年代后期的 David Hinkley(参见JSTOR),他创造了这个术语。他将其应用于常年“皮尔逊二项式预测问题”。我将总结基本逻辑。

基本的见解是,如果我们包括一个观察到的数据点,比如说y,在我们的样本中,然后对y而不是一个固定的参数,那么我们得到的不仅仅是一个似然函数,而是一个分布(未归一化),因为“参数”y实际上是随机的,因此可以在逻辑上分配一个常客概率。这个特定问题的机制在我提供的链接中进行了审查。

摆脱“讨厌”参数以获得预测可能性的基本规则如下:

  1. 如果一个参数是固定的(例如,μ,σ),然后从可能性中对其进行分析
  2. 如果一个参数是随机的(例如,其他未观察到的数据或“随机效应”),那么您将它们整合出来(就像在贝叶斯方法中一样)。

固定参数和随机参数之间的区别是似然推断所独有的,但与混合效应模型有关,在混合效应模型中,贝叶斯、常客和似然框架似乎相互冲突。

希望这回答了您关于“非贝叶斯”预测的广泛领域(以及相关推断)的问题。由于超链接可以更改,我还将为“在所有可能性中:使用可能性的统计建模和推理”一书做一个插件,该书深入讨论了现代可能性框架,包括可能性与贝叶斯与频率论的相当多的认识论问题推理和预测。


参考

  1. 预测区间:非参数方法维基百科。于 2015 年 9 月 13 日访问。
  2. Bjornstad, Jan F.预测可能性:回顾。统计学家。科学。5 (1990), 没有。2, 242--254。doi:10.1214/ss/1177012175。 http://projecteuclid.org/euclid.ss/1177012175
  3. 大卫·欣克利。预测可能性统计年鉴卷。7, No. 4 (Jul., 1979), pp. 718-728 Published by: Institute of Mathematical Statistics Stable URL: http://www.jstor.org/stable/2958920
  4. 尤迪·帕维坦。在所有可能性中:使用可能性的统计建模和推理。 牛津大学出版社; 1 版(2001 年 8 月 30 日)。ISBN-10:0198507658,ISBN-13:978-0198507659。尤其是第 5.5-5.9、10 和 16 章。

我将专门回答这个问题,“有哪些非贝叶斯预测推理方法考虑到参数估计中的不确定性?” 我将围绕扩展不确定性的含义来组织我的回答。

我们希望统计分析为各种索赔提供支持,包括预测但我们仍然不确定我们的主张,这种不确定性来自许多来源。频率统计的特点是围绕仅解决我们的不确定性的那一部分进行组织,这些不确定性特别来自抽样抽样很可能是农业田间实验中不确定性的主要来源,历史上这些实验为频率统计的发展提供了很大的刺激。但在当前许多最重要的应用中,情况并非如此。我们现在担心各种其他不确定性,例如模型错误指定和各种形式的偏差——其中显然有数百(!)种类型[1]。

Sander Greenland 有一篇精彩的讨论论文 [2] 指出了考虑这些其他不确定性来源的重要性,并规定了多重偏差分析作为实现这一目标的手段。他完全用贝叶斯术语发展了这个理论,这是很自然的。如果一个人希望对模型参数的不确定性进行正式的、连贯的处理,自然会导致对参数假设(主观)概率分布;在这一点上,你要么迷失在贝叶斯恶魔面前,要么进入了贝叶斯天国(取决于你的宗教信仰)。

对于您的问题,@Scortchi,关于这是否可以使用“非贝叶斯方法”来完成,在 [3] 中演示了一种非贝叶斯解决方法。但是对于任何对贝叶斯主义有足够了解来写你的问题的人来说,那里的处理看起来更像是试图“偷偷地”实施贝叶斯计算。事实上,正如作者承认的那样(见第 4 页),你越接近本书末尾的更高级的方法,这些方法就越像你在问题中描述的集成。他们认为,他们最终偏离贝叶斯主义的地方只是在估计参数之前不明确先验。

为了明确地将其与预测联系起来,我们只需要将“预测”作为估计参数的函数来理解。在 [2] 中,格陵兰岛使用符号θ(α), 在哪里α是模型参数的向量,并且θ是要估计的那些参数的函数。(就格陵兰岛的示例应用而言,一个有意义的预测可能是重新安置电力线政策对减少儿童白血病的影响。)

  1. Chavalarias、David 和 John PA Ioannidis。“科学绘图分析表征了生物医学研究中的 235 种偏见。” 临床流行病学杂志 63,没有。11(2010 年 11 月):1205–15。doi:10.1016/j.jclinepi.2009.12.011。

  2. 格陵兰,桑德。“用于分析观测数据的多偏差建模(带讨论)。” 皇家统计学会杂志:A 系列(社会统计)168,不。2(2005 年 3 月):267–306。doi:10.1111/j.1467-985X.2004.00349.x。

  3. Lash、Timothy L.、Matthew P. Fox 和 Aliza K. Fink。将定量偏差分析应用于流行病学数据。生物学和健康统计。纽约,纽约:施普林格纽约,2009。http: //link.springer.com/10.1007/978-0-387-87959-8