当我们通常使用无信息或主观先验时,贝叶斯框架如何更好地解释?

机器算法验证 贝叶斯 解释 事先的 可能性 后部
2022-02-02 05:20:03

人们经常争辩说,贝叶斯框架在解释方面有很大的优势(超过频率论者),因为它计算给定数据的参数的概率 -而不是,如常客框架。到现在为止还挺好。p(θ|x)p(x|θ)

但是,它基于的整个方程式:

p(θ|x)=p(x|θ).p(θ)p(x)

在我看来,这有两个原因:

  1. 在许多论文中,通常使用无信息的先验(均匀分布),然后只使用,因此贝叶斯得到的结果与常客得到的结果相同 - 那么贝叶斯框架在解释,当贝叶斯后验概率和频率概率是相同的分布?它只是产生相同的结果。p(θ|x)=p(x|θ)

  2. 当使用信息先验时,你会得到不同的结果,但是贝叶斯会受到主观先验的影响,所以整个也有主观色彩。p(θ|x)

换句话说,在解释上比是一种“真实”的假设之上,而通常情况下并非如此,它只是我们以某种方式选择让 MCMC 运行的一个起点,一个假设,但它不是对现实的描述(我认为它无法定义)。p(θ|x)p(x|θ)p(θ)

那么我们怎么能说贝叶斯在解释上更好呢?

4个回答

为了给出比已经发布的优秀的更窄的响应,并专注于解释的优势 - 贝叶斯解释,例如“95%可信区间”是真实参数值的概率位于间隔等于 95%。对 a 的两种常见的常客解释之一,例如“95% 置信区间”,即使两者在数值上是相同的,是从长远来看,如果我们要多次执行该过程,那么间隔将覆盖实际值将收敛到 95%。前者是直观的,后者不是。试着向经理解释一下,你不能说“我们的太阳能电池板在 25 年内退化不到 20% 的概率是 95%”,而必须说“

另一种常客解释是“在生成数据之前,我使用我确定的程序计算的间隔有 5% 的可能性会完全低于真实参数值。但是,既然我们已经收集了数据,我们不能做出任何这样的陈述,因为我们不是主观主义者,概率是 0 或 1,这取决于它是否完全低于真实参数值。” 这将有助于审计员和计算保修准备金。(我实际上发现这个定义是合理的,尽管通常不是很有用;它也不容易直观地理解,尤其是如果你不是统计学家的话。)

频率论的解释都不是直观的。贝叶斯版本是。因此,贝叶斯方法具有“解释上的巨大优势”。

在我看来,贝叶斯统计在解释上“更好”的原因与先验无关,而是由于概率的定义。贝叶斯定义(某个命题的真实性的相对合理性)比频率论定义(某事发生的长期频率)更符合我们对该词的日常使用。在大多数实际情况下p(θ|x)是我们真正想知道的,而不是p(x|θ),并且由于倾向于将常客计算中的结果解释为贝叶斯计算,因此常客统计出现了困难,即p(x|θ)好像它是p(θ|x)(例如 p 值谬误,或将置信区间解释为可信区间)。

请注意,信息先验不一定是主观的,例如,我不会认为断言某些物理系统的先验知识应该独立于测量单位(因为它们本质上是任意的)是主观知识,从而导致了转换组的想法和“最少信息”的先验。

忽略主观知识的另一面是,您的系统可能不是最佳的,因为您忽略了专家知识,因此主观性不一定是坏事。例如,在通常用作激励示例的“推断硬币偏差”问题中,随着数据的传入,您将在统一的先验条件下学习相对较慢。但是所有偏差量都同样可能是一个合理的假设吗?不,很容易制造一个稍微有偏差的硬币,或者完全有偏差的硬币(两个正面或两个 tals),所以如果我们通过主观先验将这个假设建立到我们的分析中,我们将需要更少的数据来确定什么是偏见实际上是。

频率论分析也经常包含主观因素(例如,如果 p 值小于 0.05,则拒绝零假设的决定,没有逻辑强制这样做,这只是一个已证明有用的传统)。贝叶斯方法的优点是主观性在计算中是明确的,而不是隐含的。

归根结底,这是“课程用马”的问题,您的工具箱中应该有两套工具,并准备好使用最好的工具来完成手头的任务。

话虽如此,贝叶斯常客!!!;oP

贝叶斯框架比频率论者有很大的优势,因为它在知道要做出的正确分布假设方面不依赖于“水晶球”。贝叶斯方法取决于使用您拥有的信息,以及知道如何将这些信息编码为概率分布。

使用贝叶斯方法基本上是在充分利用概率论。贝叶斯定理只不过是对概率论经典乘积规则的重述:

p(θx|I)=p(θ|I)p(x|θI)=p(x|I)p(θ|xI)

只要p(x|I)0(即先前的信息没有说观察到的东西是不可能的)我们可以除以它,并得出贝叶斯定理。我用过I表示始终存在的先验信息 - 您不能在没有信息的情况下分配概率分布。

现在,如果您认为贝叶斯定理是可疑的,那么从逻辑上讲,您也必须认为乘积规则也是可疑的。你可以在这里找到一个演绎论证,它推导出乘积和求和规则,类似于 Cox 定理。可以在此处找到所需假设的更明确的列表。

据我所知,频率论推理不是基于逻辑框架内的一组基础。因为它使用 Kolmogorov 概率公理,所以概率论和统计推断之间似乎没有任何联系。频率论推理没有任何公理导致要遵循的程序。有一些原则和方法(最大似然、置信区间、p 值等),它们工作得很好,但它们往往是孤立的,专门针对特定问题。我认为频率论方法最好在其基础上保持模糊,至少在严格的逻辑框架方面。

为点1,从解释的角度来看,得到相同的结果有些无关紧要。两个过程可能导致相同的结果,但这并不意味着它们是等价的。如果我只是猜测θ,并且碰巧猜到了最大似然估计(MLE),这并不意味着我的猜测和 MLE 一样好。

为点2,为什么要担心不同信息的人会得出不同的结论呢?拥有数学博士学位的人会并且应该得出与高中数学水平不同的结论。他们拥有不同数量的信息——我们为什么希望他们同意?当您收到已知信息时,您往往会改变主意。多少取决于它是什么类型的信息。贝叶斯定理应该包含这个特性。

与先验相比,似然性明显时,使用统一先验通常是一种方便的近似。有时不值得付出努力,通过并正确设置先验。同样,不要将贝叶斯统计与 MCMC 混淆。MCMC 只是一种积分算法,与高斯求积相同,与拉普拉斯近似类似。它比 quadratre 更有用,因为您可以重新使用算法的输出来进行所有积分(后验均值和方差是积分),并且比 Laplace 更通用,因为您不需要大样本或后部圆润的峰(虽然拉普拉斯更快)。

我通常看到在“指导性”类型示例中使用统一先验,或者在对特定超参数一无所知的情况下使用。通常,我看到不知情的先验提供的关于解决方案将是什么的信息很少,但它们在数学上编码了一个好的解决方案可能是什么样的。例如,人们通常会看到高斯先验(μ=0) 放在回归系数上,编码所有事物都相等的知识,我们更喜欢系数具有较低幅度的解决方案。这是为了避免过度拟合数据集,方法是找到最大化目标函数但在我们问题的特定上下文中没有意义的解决方案。从某种意义上说,它们提供了一种方法,可以为统计模型提供一些关于特定领域的“线索”。

然而,这不是(在我看来)贝叶斯方法最重要的方面。贝叶斯方法是生成的,因为它们为数据如何存在提供了一个完整的“故事”。因此,他们不仅仅是模式发现者,而是能够考虑手头情况的全部现实。例如,考虑 LDA(潜在狄利克雷分配),它提供了一个关于文本文档如何形成的完整生成故事,它是这样的:

  1. 根据特定主题同时出现的可能性选择一些主题组合;
  2. 根据所选主题从词汇表中选择一组单词。

因此,该模型是基于对领域中的对象(这里是文本文档)以及它们是如何创建的非常具体的理解来拟合的;因此,我们返回的信息直接针对我们的问题域(给定主题的单词的可能性、一起提及的主题的可能性、包含主题的文档的可能性以及程度等)。需要贝叶斯定理来做到这一点的事实几乎是次要的,因此有一个小笑话,“贝叶斯不会是贝叶斯主义者,基督不会是基督徒。”

简而言之,贝叶斯模型都是关于使用概率分布对领域对象进行严格建模。因此,我们能够编码通过简单的判别技术无法获得的知识。