最大似然估计——尽管在许多情况下存在偏见,但为什么要使用它

机器算法验证 正态分布 最大似然 矩量法
2022-02-08 10:54:22

最大似然估计经常导致有偏差的估计量(例如,它对样本方差的估计对高斯分布有偏差)。

那么是什么让它如此受欢迎呢?为什么它被使用这么多?此外,有什么特别使它比另一种方法——矩方法更好?

此外,我注意到对于高斯,MLE 估计器的简单缩放使其无偏。为什么这种缩放不是标准程序?我的意思是——为什么在 MLE 计算之后,找到必要的缩放比例以使估计器无偏不是例行公事?标准做法似乎是 MLE 估计的简单计算,当然除了众所周知的比例因子众所周知的高斯情况。

4个回答

不偏不倚本身并不一定特别重要。

除了非常有限的一组情况外,大多数有用的估计器都是有偏差的,无论它们是如何获得的。

如果两个估计量具有相同的方差,那么人们可以很容易地提出一个论点来支持一个无偏的估计而不是有偏的估计,但这是一种不寻常的情况(也就是说,在其他条件不变的情况下,你可能会合理地更喜欢无偏性——但那些讨厌的其他条件几乎从来没有paribus)。

更典型的是,如果你想要公正,你会增加一些差异来获得它,然后问题是你为什么要这样做

偏差是我的估计器的预期值平均过高的程度(负偏差表示过低)。

当我考虑一个小样本估计器时,我并不真正关心这一点。在这种情况下,我通常对我的估计器的错误程度更感兴趣——我与右边的典型距离......像均方根误差或平均绝对误差这样的东西会更有意义。

因此,如果您喜欢低方差和低偏差,那么要求最小均方误差估计器是有意义的;这些很少是公正的。

偏差和无偏性是一个需要注意的有用概念,但除非您只是比较具有相同方差的估计量,否则它并不是一个特别有用的属性。

ML 估计器往往是低方差的;它们通常不是最低 MSE,但它们的 MSE 通常低于将它们修改为不偏不倚(当你可以做到时)会给你的。

例如,考虑从正态分布抽样时估计方差(事实上,方差的 MMSE 总是有比更大的分母)。σ^MMSE2=S2n+1,σ^MLE2=S2n,σ^Unb2=S2n1n1

考虑到模型和手头的数据,最大似然估计 (MLE) 会产生模型参数的最可能值——这是一个非常有吸引力的概念。当您可以选择使观察到的数据在任何一组值中最可能的值时,为什么要选择使观察到的数据不太可能的参数值?你愿意为了公正而牺牲这个特性吗?我并不是说答案总是很清楚,但 MLE 的动机非常强大和直观。

此外,据我所知,MLE 可能比矩量法更广泛适用。在潜在变量的情况下,MLE 似乎更自然;例如,移动平均 (MA) 模型或广义自回归条件异方差 (GARCH) 模型可以通过 MLE 直接估计(直接我的意思是指定似然函数并将其提交给优化程序就足够了)——但是不是通过矩量法(尽管可能存在利用矩量法的间接解)。

实际上,为了获得无偏估计而对最大似然估计进行缩放许多估计问题中的标准程序。原因是 mle 是充分统计量的函数,因此根据Rao-Blackwell 定理,如果您可以根据充分统计量找到无偏估计量,那么您就有了最小方差无偏估计量。

我知道您的问题比这更笼统,但我要强调的是,关键概念与基于它的可能性和估计密切相关。这些估计在有限样本中可能不是无偏的,但它们是渐近的,而且它们是渐近有效的,即它们达到了无偏估计量的 Cramer-Rao 方差界,而 MOM 估计量可能并非总是如此。

要回答为什么 MLE 如此受欢迎的问题,请考虑尽管它可能存在偏差,但它在标准条件下是一致的。此外,它是渐近有效的,因此至少对于大样本,MLE 可能与您可能编写的任何其他估计器一样好或更好。最后,通过一个简单的配方找到 MLE;取似然函数并最大化它。在某些情况下,这个方法可能很难遵循,但对于大多数问题,它不是。另外,一旦你有了这个估计,我们就可以使用 Fisher 的信息立即推导出渐近标准误差。如果不使用 Fisher 的信息,通常很难得出误差范围。

这就是为什么 MLE 估计经常成为估计器的原因(除非你是贝叶斯主义者);它很容易实现,并且可能与您需要做更多工作来烹饪的其他任何事情一样好,如果不是更好的话。