最大似然何时有效,何时无效?

机器算法验证 最大似然
2022-02-04 23:14:18

与计算算术平均值相比,我对最大似然法感到困惑。

最大似然何时以及为什么产生比算术平均值“更好”的估计?这是如何验证的?

3个回答

虽然算术平均值x¯听起来像是“自然”的估计器,有人可能会问为什么它应该比 MLE 更受欢迎!与算术平均值相关的唯一确定的属性是它是一个无偏估计E[X]当这个期望被定义时。(将柯西分布视为反例。)后者在似然函数的正则条件下确实享有广泛的属性。借用维基百科页面,MLE 是

  1. 持续的
  2. 渐近正态
  3. 高效,因为它实现了最小的渐近方差
  4. 双射变换下不变
  5. 即使对于受约束的参数集,也在参数集中

与算术平均值相比,对于足够规则的分布,大多数这些属性也得到满足。除了 4 和 5。在指数族的情况下,MLE 和算术平均值对于估计均值参数化中的参数是相同的(但不适用于其他参数化)。并且 MLE 存在于柯西分布的样本中。

然而,当转向像极小值或可接受性这样的有限样本最优性属性时,MLE 可能既不是极小值也不是可接受的。例如,斯坦效应表明,在样本分布和参数维数的某些约束下,对于所有参数值,存在具有较小二次风险的估计量。当这种情况xNp(θ,Ip)p3.

让我们将“计算算术平均值”解释为使用矩量法 (MoM) 进行的估计。我相信这忠实于原始问题,因为该方法用样本平均值代替了理论平均值。它还解决了@Xi'an 对任意参数(来自任意模型)的担忧。

如果您仍然和我在一起,那么我认为一个很好的去处是示例,其中矩量法可以在小样本中击败最大似然?问题文本指出“最大似然估计量 (MLE) 是渐近有效的;我们看到实际结果是它们通常比矩量法 (MoM) 估计(当它们不同时)做得更好”,并寻找 MoM 估计量的具体情况实现比 MLE 对应的更小的均方误差。提供的一些示例是在线性回归、两参数逆高斯分布和非对称指数功率分布的背景下。

这种“渐近效率”的想法意味着最大似然估计器可能接近于充分利用数据(估计有问题的参数),这是一般矩量法无法保证的。虽然最大似然并不总是比使用平均值“更好”,但这种效率属性(如果只是在极限内)使其成为大多数常客的首选方法。当然,逆向者可能会争辩说,随着数据集规模的增加,如果你用平均值函数指向正确的目标,那就去吧。

有几个著名的例子,最大似然 (ML) 不能提供最佳解决方案。参见 Lucien Le Cam 1990 年的论文:“Maximum Likelihood: an Introduction” [1],来自他在大学的受邀讲座。马里兰州。

我最喜欢的例子是这样的,因为它非常简单:

考虑两个独立随机变量序列XjYj索引为j=1,...,n. 让我们假设XjN(μj,σ2)YjN(μj,σ2). 换句话说,对于每个j这对XjYj同分布,均值和方差相同,均值是j. 什么是 ML 估计σ2?

我不会因为给你答案而破坏乐趣,但是(不足为奇)有两种方法可以使用 ML 来解决这个问题,它们会给出不同的解决方案。一个是残差平方的“算术平均值”(正如人们所期望的那样),另一个是算术平均值的一半。可以在我的 Github 页面上找到答案。