为什么最大似然估计被认为是一种常客技术

机器算法验证 最大似然 常客
2022-01-28 23:56:30

对我来说,频率统计是尝试做出对所有可能样本都有利的决策的同义词。即,一个常客决策规则δ应始终尝试最小化频率风险,这取决于损失函数L和真实的自然状态θ0

Rfreq=Eθ0(L(θ0,δ(Y))

最大似然估计如何与频率风险相关?鉴于它是常客使用的最常用的点估计技术,因此肯定存在某种联系。据我所知,最大似然估计比常客风险的概念更早,但仍然必须有一些联系,为什么会有这么多人声称它是常客技术?

我发现的最接近的联系是

“对于满足弱规律性条件的参数模型,最大似然估计量近似为极小极大值” Wassermann 2006,p。201 "

公认的答案要么将最大似然点估计与常客风险联系起来,要么提供了常客推理的替代正式定义,表明 MLE 是一种常客推理技术。

2个回答

您对频率学和 MLE 应用了一个相对狭窄的定义——如果我们更慷慨一些并定义

  • 频率主义:一致性目标、(渐近)最优性、无偏性和重复采样下的受控错误率,独立于真实参数

  • MLE = 点估计 + 置信区间 (CI)

那么很明显,MLE 满足了所有常客的理想。特别是 MLE 中的 CI,作为 p 值,控制了重复采样下的错误率,并且没有像许多人认为的那样给出真实参数值的 95% 概率区域- 因此它们是彻头彻尾的常客。

并非所有这些想法都已经出现在费舍尔 1922 年的基础论文“理论统计的数学基础”中,但最优性和无偏性的想法是存在的,而 Neyman 后者添加了构建具有固定错误率的 CI 的想法。Efron, 2013, “A 250-year argument: Belief, behavior, and the bootstrap”,在他非常易读的贝叶斯/频率论辩论历史中总结:

1900 年代初,常客的潮流真的开始了。Ronald Fisher 开发了最优估计的最大似然理论,显示了估计的最佳可能行为,Jerzy Neyman 对置信区间和检验也做了同样的事情。Fisher 和 Neyman 的程序几乎完美地满足了科学需求和 20 世纪科学的计算极限,使贝叶斯主义陷入了阴影之中。

关于您更狭窄的定义-我略微不同意您的前提,即最小化频率风险(FR)是决定一种方法是否遵循频率主义哲学的主要标准。我想说的是,最小化 FR 是一个可取的属性,它遵循频率论哲学,而不是先于它。因此,决策规则/估计器不必将 FR 最小化为常客,最小化 FR 也不一定说方法是常客,但常客无疑会更喜欢 FR 的最小化。

如果我们具体看 MLE:Fisher 表明 MLE 是渐近最优的(大致相当于最小化 FR),这当然是推广 MLE 的原因之一。然而,他知道最优性不适用于有限的样本量。尽管如此,由于其他理想的属性,例如一致性、渐近正态性、参数变换下的不变性,他仍然对这个估计器感到满意,而且我们不要忘记:易于计算。在 1922 年的论文中,特别强调了不变性——根据我的阅读,我想说在参数变换下保持不变性,以及摆脱一般先验的能力,是他选择 MLE 的主要动机之一。如果你想更好地理解他的推理,我真的推荐 1922 年的论文,它'

基本上,有两个原因:

  • 最大似然是模型参数的逐点估计我们贝叶斯主义者喜欢后验分布。
  • 最大似然假设没有先验分布,我们贝叶斯主义者需要我们的先验,它可能是信息性的或非信息性的,但它需要存在