MLE 的哪些特性使其比 OLS 更受欢迎?

机器算法验证 回归 最大似然 最小二乘 蓝色的
2022-03-22 21:58:16

这个问题似乎很基础,我确信它已经在这里某个地方得到了回答,但我还没有找到它。

我知道,如果回归中的因变量是正态分布的,最大似然和普通最小二乘会产生相同的参数估计。

当因变量不是正态分布时,OLS 参数估计不再等同于 MLE,但它们仍然是最佳(最小方差)线性无偏估计 (BLUE)。

那么,MLE 的哪些属性使其超出 OLS 所提供的(蓝色)更受欢迎?

换句话说,如果我不能说我的 OLS 估计是最大似然估计,我会失去什么?

稍微激发一下这个问题:我想知道为什么在存在明显非正态因变量的情况下我要选择 OLS 以外的回归模型。

2个回答

当您远离正态性时,所有线性估计器都可能是任意的 bad

知道你可以得到最好的(即最好的线性无偏估计)并不是什么安慰。

如果您可以指定一个合适的分布模型(是的,有问题),最大化可能性具有直接的直观吸引力 - 因为它“最大化”看到您实际看到的样本的机会(通过对我们的内容进行适当的改进)连续情况的平均值)和许多在理论上和实践上都非常有用的非常简洁的属性(例如,与 Cramer-Rao 下界的关系、变换下的等方差、与似然比检验的关系等)。例如,这激发了 M 估计。

即使您无法指定模型,也可以构建一个模型,其中 ML 对响应的条件分布中的严重错误造成的污染具有鲁棒性——它在高斯分布上保持了相当好的效率,但避免了潜在的灾难性任意大的异常值的影响。

[这不是回归的唯一考虑因素,因为还需要对有影响力的异常值的影响具有鲁棒性,但这是一个很好的初始步骤]


作为即使是最好的线性估计器的问题的演示,请考虑斜率估计器的回归比较。在这种情况下,每个样本中有 100 个观测值,x 为 0/1,真实斜率为,误差为标准 Cauchy。模拟采用 1000 组模拟数据并计算斜率的最小二乘估计(“LS”)以及可在这种情况下使用的几个非线性估计器(在 Cauchy 中两者都不是完全有效的,但它们都是合理的) - 一个是线的 L1 估计量(“L1”),第二个是在 x 的两个值处计算位置的简单 L 估计并拟合连接它们的线(“LE”)。12

箱线图将最小二乘斜率估计器的性能与适用于这种情况的斜率的一些鲁棒到总误差估计进行比较

该图的顶部是每个模拟的数千个斜率估计的箱线图。下半部分是该图像“放大”的中央百分之一(粗略地说,它在顶部图中标有一个微弱的橙灰色框),因此我们可以看到更多细节。正如我们所见,最小二乘斜率范围从 -771 到 1224,上下四分位数分别为 -1.24 和 2.46。LS 斜率的误差超过 10% 的时间超过 10%。这两个非线性估计器的表现要好得多——它们的表现非常相似,在任何一种情况下,1000 个斜率估计都没有超过真实斜率的 0.84,并且斜率的中值绝对误差在 0.14 左右(相对于最小二乘估计器的 1.86)。在这种情况下,LS 斜率的 RMSE 是 L1 和 LE 估计量的 223 倍和 232 倍(即

这里可能使用了许多其他合理的估计量;这只是一个快速计算,以说明即使是最好/最有效的线性估计器也可能没有用。斜率的 ML 估计器会比此处使用的两个稳健估计器表现更好(在 MSE 意义上),但在实践中,您需要对影响点具有一定稳健性的东西。

在正态分布数据的情况下,OLS 与 MLE 收敛,这是一个蓝色的解决方案(在那一点上)。一旦不正常,OLS 就不再是 BLUE(根据高斯马尔可夫定理) - 这是因为 OLS 看起来最小化 SSR,而 GMT 则根据最小 SE 定义 BLUE。在这里查看更多

一般来说,鉴于存在 MLE(谷歌搜索“MLE 失败”或 MLE 不存在的情况),调整它更容易,无论是为了最小化方差还是使其无偏(因此与其他估计器相当) .