与计算算术平均值相比,我对最大似然法感到困惑。
最大似然何时以及为什么产生比算术平均值“更好”的估计?这是如何验证的?
与计算算术平均值相比,我对最大似然法感到困惑。
最大似然何时以及为什么产生比算术平均值“更好”的估计?这是如何验证的?
虽然算术平均值听起来像是“自然”的估计器,有人可能会问为什么它应该比 MLE 更受欢迎!与算术平均值相关的唯一确定的属性是它是一个无偏估计当这个期望被定义时。(将柯西分布视为反例。)后者在似然函数的正则条件下确实享有广泛的属性。借用维基百科页面,MLE 是
与算术平均值相比,对于足够规则的分布,大多数这些属性也得到满足。除了 4 和 5。在指数族的情况下,MLE 和算术平均值对于估计均值参数化中的参数是相同的(但不适用于其他参数化)。并且 MLE 存在于柯西分布的样本中。
然而,当转向像极小值或可接受性这样的有限样本最优性属性时,MLE 可能既不是极小值也不是可接受的。例如,斯坦效应表明,在样本分布和参数维数的某些约束下,对于所有参数值,存在具有较小二次风险的估计量。当这种情况和.
让我们将“计算算术平均值”解释为使用矩量法 (MoM) 进行的估计。我相信这忠实于原始问题,因为该方法用样本平均值代替了理论平均值。它还解决了@Xi'an 对任意参数(来自任意模型)的担忧。
如果您仍然和我在一起,那么我认为一个很好的去处是示例,其中矩量法可以在小样本中击败最大似然?问题文本指出“最大似然估计量 (MLE) 是渐近有效的;我们看到实际结果是它们通常比矩量法 (MoM) 估计(当它们不同时)做得更好”,并寻找 MoM 估计量的具体情况实现比 MLE 对应的更小的均方误差。提供的一些示例是在线性回归、两参数逆高斯分布和非对称指数功率分布的背景下。
这种“渐近效率”的想法意味着最大似然估计器可能接近于充分利用数据(估计有问题的参数),这是一般矩量法无法保证的。虽然最大似然并不总是比使用平均值“更好”,但这种效率属性(如果只是在极限内)使其成为大多数常客的首选方法。当然,逆向者可能会争辩说,随着数据集规模的增加,如果你用平均值函数指向正确的目标,那就去吧。
有几个著名的例子,最大似然 (ML) 不能提供最佳解决方案。参见 Lucien Le Cam 1990 年的论文:“Maximum Likelihood: an Introduction” [1],来自他在大学的受邀讲座。马里兰州。
我最喜欢的例子是这样的,因为它非常简单:
考虑两个独立随机变量序列和索引为. 让我们假设和. 换句话说,对于每个这对和同分布,均值和方差相同,均值是. 什么是 ML 估计?
我不会因为给你答案而破坏乐趣,但是(不足为奇)有两种方法可以使用 ML 来解决这个问题,它们会给出不同的解决方案。一个是残差平方的“算术平均值”(正如人们所期望的那样),另一个是算术平均值的一半。你可以在我的 Github 页面上找到答案。