的点估计,这说明您的哲学是什么?(频率学派或贝叶斯学派或其他什么?)磷( x | θ )P(x|θ)

机器算法验证 贝叶斯 最大似然 可能性 常客 哲学的
2022-03-25 01:12:43

如果有人说

“该方法使用MLE的参数的点估计,因此它是常客;而且它不是贝叶斯。”P(x|θ)

你同意吗?

  • 背景更新:我最近阅读了一篇声称是常客的论文。我不同意他们的说法,充其量我觉得这是模棱两可的。该论文没有明确提及 MLE (或MAP,就此而言)。他们只是进行点估计,并且他们只是继续进行,就好像这个点估计是真的一样。他们对此估计器的抽样分布进行任何分析,或类似的事情;该模型非常复杂,因此可能无法进行此类分析。他们在任何时候都不使用“后验”一词。他们只是从表面上看这个点估计,然后继续他们感兴趣的主要话题——推断缺失的数据。我认为他们的方法中没有任何东西可以表明他们的哲学是什么。他们可能打算成为常客(因为他们觉得有义务将他们的理念放在袖子上),但他们的实际方法非常简单/方便/懒惰/模棱两可。我现在倾向于说这项研究背后并没有任何哲学。相反,我认为他们的态度更务实或更方便:

    “我已经观察到数据,并且我希望估计一些缺失的数据。有一个参数之间的关系。我并不真正关心,只是作为达到目的的手段. 如果我有一个的估计,它将更容易的点估计,因为它很方便,特别是我会选择最大化。”xzθzxθθzxθθ^P(x|θ)

无偏估计量概念显然是频率论的概念。这是因为它不以数据为条件,它描述了一个很好的属性(无偏性),该属性适用于参数的所有值。

在贝叶斯方法中,数据和参数的角色有点颠倒。特别是,我们现在以观察到的数据为条件,并继续对参数的值进行推断。这需要先验。

到目前为止一切都很好,但是MLE(最大似然估计)在哪里适合这一切呢?我的印象是,许多人认为它是频率论(或者更准确地说,它不是贝叶斯)。但我觉得它是贝叶斯,因为它涉及获取观察到的数据,然后找到最大化的参数。MLE 隐含地对数据使用统一的先验和条件,并最大化可以说 MLE 看起来既是频率派又是贝叶斯派?还是每个简单的工具都必须完全属于这两个类别之一?P(data|parameter)P(parameter|data)

MLE 是一致的,但我觉得可以将一致性表示为贝叶斯思想。给定任意大的样本,估计会收敛到正确的答案。“估计将等于真实值”的陈述对于参数的所有值都成立。有趣的是,如果您以观察到的数据为条件,则该陈述也适用,使其成为贝叶斯。这个有趣的问题适用于 MLE,但不适用于无偏估计量。

这就是为什么我觉得 MLE 是可能被描述为频率学派的方法中“最贝叶斯”的原因。

无论如何,大多数频率属性(例如无偏性)适用于所有情况,包括有限的样本量。一致性仅在不可能的情况下成立(一个实验中的无限样本)这一事实表明一致性并不是一个有用的属性。

给定一个现实的(即有限的)样本,是否存在适用于 MLE 的频率论属性?如果不是,MLE 就不是真正的频率论者。

4个回答

当您进行最大似然估计时,您会考虑估计值和估计的抽样属性,以便确定您的估计的不确定性,以置信区间表示。我认为这对您的问题很重要,因为置信区间通常取决于未观察到的样本点,某些人认为这本质上是非贝叶斯属性。

PS这与最大似然估计(点+区间)无法满足似然原则的更一般的事实有关,而完整的(“野蛮风格”)贝叶斯分析则满足。

还是每个简单的工具都必须完全属于这两个类别之一?

不。可以从许多不同的角度研究简单(而不是那么简单的工具)。似然函数本身是贝叶斯统计和频率统计的基石,可以从这两个角度进行研究!如果需要,您可以将 MLE 研究为近似贝叶斯解,或者您可以使用渐近理论以频率论的方式研究其性质。

似然函数是涉及数据和未知参数的函数。可以将其视为给定参数值的观测数据的概率密度。参数是固定的。因此,可能性本身就是一个频率论者的概念。最大化可能性只是找到使可能性取其最大值的参数的特定值。因此,最大似然估计是一种仅基于数据和假定生成数据的模型形式的频率论方法。贝叶斯估计仅在先验分布被放置在参数上并且贝叶斯公式用于通过将先验与似然相结合来获得参数的后验分布时才进入。

假设“贝叶斯”指的是主观贝叶斯(又名认知贝叶斯,De-Finetti Bayes),而不是当前的经验贝叶斯含义——这远非微不足道。一方面,您仅根据数据进行推断。手头没有主观信念。这似乎已经够频繁了……但是,甚至在费舍尔本人(严格的非(主观)贝叶斯主义者)也表达了批评,即在选择数据的抽样分布时,主观性已经爬了进来。参数仅在给定我们的情况下定义数据生成过程的信念。

总之——我相信 MLE 通常被认为是一个常客概念,尽管它只是你如何定义“常客”和“贝叶斯”的问题。