如果我可以弥补先验,为什么我不能弥补后验​​?

机器算法验证 贝叶斯 数理统计
2022-03-28 21:27:27

我的问题并不是要批评贝叶斯方法。我只是想理解贝叶斯观点。为什么认为我们知道参数的分布是合理的,但在给定数据的情况下却不知道我们的参数?

4个回答

好吧,在贝叶斯统计中,你不只是“弥补”你的先验。在查看数据之前,您应该构建一个最能捕捉您知识的先验。否则,为什么有人应该关心你的贝叶斯分析的输出是很难证明的。

因此,虽然从业者在创建先验方面确实有一定的自由感,但它应该与有意义的东西联系起来,以便分析有用。话虽如此,先验并不是贝叶斯分析中唯一允许这种自由的部分。从业者在构建似然函数时具有相同的自由度,它定义了数据和模型之间的关系。就像使用废话先验会导致废话后验一样,使用废话似然也会导致废话后验。因此,在实践中,理想情况下,人们应该选择一个似然函数,使其足够灵活以处理不确定性,但又足够受约束以使有限数据的推断成为可能。

为了证明,考虑两个有些极端的例子。假设我们有兴趣确定连续价值治疗对患者的影响。为了从数据中学习任何东西,我们必须选择具有这种灵活性的模型。如果我们从我们的回归参数集中简单地省略“治疗”,无论我们的结果是什么,我们都可以报告“给定数据,我们的模型估计没有治疗效果”。在另一个极端,假设我们有一个非常灵活的模型,以至于我们不会将处理效果限制为具有有限数量的不连续性。然后,(至少在没有强先验的情况下),无论我们的样本量如何,我们几乎都没有希望我们估计的治疗效果有任何收敛。因此,我们的推论可能会因似然函数的错误选择而被完全扼杀,就像先验选择错误一样。

当然,实际上我们不会选择这两个极端中的任何一个,但我们仍然会做出这些类型的选择。我们将允许多灵活的处理效果:线性、样条、与其他变量的交互?“足够灵活”和“根据我们的样本量可估计”之间总是存在权衡。如果我们很聪明,我们的似然函数应该包括合理的约束(即治疗连续治疗效果可能相对平滑,可能不包括非常高阶的交互作用)。这与选择先验本质上是相同的艺术:您希望使用先验知识来限制您的推理,并在存在不确定性的情况下允许灵活性。使用数据的全部意义在于帮助限制因我们的不确定性而产生的一些灵活性。

总之,从业者可以自由选择先验函数和似然函数。为了使分析无论如何都有意义,这两种选择都应该是对真实现象的相对较好的近似。

编辑:

在评论中,@nanoman 对这个问题提出了一个有趣的看法。我们可以认为似然函数是一种通用的非主观函数的一种方式。因此,所有可能的模型都可以包含在先验之前的函数形式似然中。但通常,先验仅将正概率放在可能性的有限函数形式上。因此,如果没有先验,推理是不可能的,因为可能性太灵活而无法进行任何形式的推理。

虽然这不是普遍接受的先验和似然函数定义,但这种观点确实有一些优点。一方面,这在贝叶斯模型选择中非常自然。在这种情况下,不是仅仅将先验放在单个模型的参数上,而是将概率放在一组竞争模型上。但第二点,我更相信@nanoman 的观点,这种观点清楚地将推理分为主观(先验)和非主观(似然函数)。这很好,因为它清楚地表明,如果没有一些主观约束,人就无法学习任何东西,因为可能性太灵活了。它还清楚地表明,一旦有人给你一个易于处理的似然函数,一些主观信息一定会偷偷溜进来。

如果您在看到数据后对数据的分布有信心,那么您为什么要用数据来估计它的参数呢?你已经有了参数。

如果统计中有很多问题,您有一些数据,我们将其表示为X,并想了解一些“参数”θ的数据分布,即计算θ|X事物的种类(条件分布、条件期望等)。有几种方法可以实现这一点,包括最大似然,并且不讨论它们是否更好以及哪个更好,您可以考虑使用贝叶斯定理作为其中之一。使用贝叶斯定理的优点之一是,它让您直接知道给定参数(可能性)和参数分布(先验)的数据的条件分布,然后您只需计算

p(θ|X)posterior=p(X|θ)likelihoodp(θ)priorp(X)

可能性是数据的条件分布,因此这是理解数据并选择最接近它的分布的问题,这是一个没有争议的概念。关于先前,请注意,要使上述公式起作用,您需要一些先验。在完美世界中,你会先验地知道θ并应用它来获得后部。在现实世界中,这是你假设的,给出你最好的知识,并插入贝叶斯定理。您可以先选择“无信息”p(θ)1,但有许多论点认为这样的先验既不是“无信息的”,也不是合理的。我想说的是,有很多方法可以为您提供一些先验分布。有些人认为先验是一种祝福,因为它们可以将您的数据外知识带入模型,而其他人则出于完全相同的原因认为它们是有问题的。

回答你的问题,当然你可以假设给定数据的参数分布是什么。在日常基础上,我们一直根据一些假设做出决定,这些假设并不总是经过严格验证。然而,先验和后验之间的区别在于,后验是您从数据(和先验)中学到的东西。如果不是,而是你的疯狂猜测,那么它就不再是后验了。至于为什么我们允许自己“编造”先验,有两个答案取决于你问谁:要么是(a)机器工作我们需要一些先验,要么(b)我们事先知道想要将它包含在我们的模型中,并且由于先验,这是可能的。在任何一种情况下,我们通常期望数据具有“而不是先验。

从哲学上讲,“引出后验”并没有错。与先验相比,以连贯的方式进行操作要困难一些(因为您需要尊重可能性),但是 IMO 您提出了一个非常好的问题。

为了把它变成实际的东西,“弥补”后验是一种潜在有用的引出先验的方法。也就是我把所有的数据实现X=x并问自己后面是什么π(θx)将会。如果我以与可能性一致的方式执行此操作,那么我将等效地指定π(θ). 这有时被称为“降级”。一旦你意识到这一点,你就会发现“补前”和“补后”基本上是一回事。正如我所说,以与可能性一致的方式执行此操作是很棘手的,但即使您只为几个值x它可以很好地说明一个好的先验会是什么样子。