当您远离正态性时,所有线性估计器都可能是任意的 bad。
知道你可以得到最好的(即最好的线性无偏估计)并不是什么安慰。
如果您可以指定一个合适的分布模型(是的,有问题),最大化可能性具有直接的直观吸引力 - 因为它“最大化”看到您实际看到的样本的机会(通过对我们的内容进行适当的改进)连续情况的平均值)和许多在理论上和实践上都非常有用的非常简洁的属性(例如,与 Cramer-Rao 下界的关系、变换下的等方差、与似然比检验的关系等)。例如,这激发了 M 估计。
即使您无法指定模型,也可以构建一个模型,其中 ML 对响应的条件分布中的严重错误造成的污染具有鲁棒性——它在高斯分布上保持了相当好的效率,但避免了潜在的灾难性任意大的异常值的影响。
[这不是回归的唯一考虑因素,因为还需要对有影响力的异常值的影响具有鲁棒性,但这是一个很好的初始步骤]
作为即使是最好的线性估计器的问题的演示,请考虑斜率估计器的回归比较。在这种情况下,每个样本中有 100 个观测值,x 为 0/1,真实斜率为,误差为标准 Cauchy。模拟采用 1000 组模拟数据并计算斜率的最小二乘估计(“LS”)以及可在这种情况下使用的几个非线性估计器(在 Cauchy 中两者都不是完全有效的,但它们都是合理的) - 一个是线的 L1 估计量(“L1”),第二个是在 x 的两个值处计算位置的简单 L 估计并拟合连接它们的线(“LE”)。12
该图的顶部是每个模拟的数千个斜率估计的箱线图。下半部分是该图像“放大”的中央百分之一(粗略地说,它在顶部图中标有一个微弱的橙灰色框),因此我们可以看到更多细节。正如我们所见,最小二乘斜率范围从 -771 到 1224,上下四分位数分别为 -1.24 和 2.46。LS 斜率的误差超过 10% 的时间超过 10%。这两个非线性估计器的表现要好得多——它们的表现非常相似,在任何一种情况下,1000 个斜率估计都没有超过真实斜率的 0.84,并且斜率的中值绝对误差在 0.14 左右(相对于最小二乘估计器的 1.86)。在这种情况下,LS 斜率的 RMSE 是 L1 和 LE 估计量的 223 倍和 232 倍(即
这里可能使用了许多其他合理的估计量;这只是一个快速计算,以说明即使是最好/最有效的线性估计器也可能没有用。斜率的 ML 估计器会比此处使用的两个稳健估计器表现更好(在 MSE 意义上),但在实践中,您需要对影响点具有一定稳健性的东西。