如果有人说
“该方法使用MLE的参数的点估计,因此它是常客;而且它不是贝叶斯。”
你同意吗?
- 背景更新:我最近阅读了一篇声称是常客的论文。我不同意他们的说法,充其量我觉得这是模棱两可的。该论文没有明确提及 MLE (或MAP,就此而言)。他们只是进行点估计,并且他们只是继续进行,就好像这个点估计是真的一样。他们不对此估计器的抽样分布进行任何分析,或类似的事情;该模型非常复杂,因此可能无法进行此类分析。他们在任何时候都不使用“后验”一词。他们只是从表面上看这个点估计,然后继续他们感兴趣的主要话题——推断缺失的数据。我认为他们的方法中没有任何东西可以表明他们的哲学是什么。他们可能打算成为常客(因为他们觉得有义务将他们的理念放在袖子上),但他们的实际方法非常简单/方便/懒惰/模棱两可。我现在倾向于说这项研究背后并没有任何哲学。相反,我认为他们的态度更务实或更方便:
“我已经观察到数据,并且我希望估计一些缺失的数据。有一个参数和之间的关系。我并不真正关心,只是作为达到目的的手段. 如果我有一个的估计,它将更容易从的点估计,因为它很方便,特别是我会选择最大化。”
在贝叶斯方法中,数据和参数的角色有点颠倒。特别是,我们现在以观察到的数据为条件,并继续对参数的值进行推断。这需要先验。
到目前为止一切都很好,但是MLE(最大似然估计)在哪里适合这一切呢?我的印象是,许多人认为它是频率论(或者更准确地说,它不是贝叶斯)。但我觉得它是贝叶斯,因为它涉及获取观察到的数据,然后找到最大化的参数。MLE 隐含地对数据使用统一的先验和条件,并最大化。可以说 MLE 看起来既是频率派又是贝叶斯派?还是每个简单的工具都必须完全属于这两个类别之一?
MLE 是一致的,但我觉得可以将一致性表示为贝叶斯思想。给定任意大的样本,估计会收敛到正确的答案。“估计将等于真实值”的陈述对于参数的所有值都成立。有趣的是,如果您以观察到的数据为条件,则该陈述也适用,使其成为贝叶斯。这个有趣的问题适用于 MLE,但不适用于无偏估计量。
这就是为什么我觉得 MLE 是可能被描述为频率学派的方法中“最贝叶斯”的原因。
无论如何,大多数频率属性(例如无偏性)适用于所有情况,包括有限的样本量。一致性仅在不可能的情况下成立(一个实验中的无限样本)这一事实表明一致性并不是一个有用的属性。
给定一个现实的(即有限的)样本,是否存在适用于 MLE 的频率论属性?如果不是,MLE 就不是真正的频率论者。