影响点、高杠杆点、离群点的具体含义和比较?

机器算法验证 回归 异常值 杠杆作用
2022-01-27 00:57:26

来自维基百科

有影响的观察是那些对回归模型的预测有较大影响的观察。

来自维基百科

杠杆点是那些在自变量的极端或异常值下进行的观察(如果有的话),这样缺乏相邻观察意味着拟合回归模型将接近该特定观察。

为什么以下比较来自维基百科

虽然影响点通常具有高杠杆,但高杠杆点不一定是影响点

3个回答

很容易说明在简单线性模型的情况下高杠杆点可能不会产生影响:

杠杆率高但影响不大的点

蓝线是基于所有数据的回归线,红线忽略了图右上方的点。

该点符合您刚刚提供的高杠杆点的定义,因为它与其余数据相距甚远。因此,回归线(蓝色)必须靠近它。但由于它的位置在很大程度上符合在其余数据中观察到的模式,因此另一个模型会很好地预测它(即红线无论如何都已经接近它),因此它不是特别有影响力。

将此与以下散点图进行比较:

高杠杆高影响点

在这里,图右侧的点仍然是一个高杠杆点,但这次它并不真正符合在其余数据中观察到的模式。蓝线(基于所有数据的线性拟合)非常接近,但红线没有。包含或排除这一点会极大地改变参数估计:它有很大的影响。

请注意,您引用的定义和我刚刚给出的示例似乎暗示高杠杆/影响点在某种意义上是单变量“异常值”,并且拟合回归线将通过接近具有最高影响的点,但它需要并非如此。

隐藏的高影响点

在最后一个例子中,右下角的观察对模型的拟合有(相对)大的影响(通过红线和蓝线之间的差异再次可见),但它似乎仍然远离回归线而在单变量分布中无法检测到(此处由沿轴的“地毯”表示)。

想象一下任何适合某些数据的回归线。

现在想象一个额外的数据点,一个离数据主体有一段距离的异常值,但它位于回归线的某个位置。

如果要重新拟合回归线,则系数不会改变。相反,删除额外的异常值将对系数的影响为零。

因此,如果异常值或杠杆点与其余数据和其余所暗示的模型完全一致,则其影响为零。

对于“线”,如果需要,请阅读“平面”或“超平面”,但两个变量和散点图的最简单示例在这里就足够了。

但是,由于您喜欢定义——通常,似乎倾向于过多地解读它们——这是我最喜欢的异常值定义:

“异常值是与大多数样本相关的样本值”(WN Venables 和 BD Ripley。2002 年。S. New York 的现代应用统计:Springer,p.119)。

至关重要的是,惊喜存在于旁观者的脑海中,并且取决于数据的某种默认或显式模型。可能还有另一种模型,在这种模型下异常值一点也不奇怪,比如数据是否真的是对数正态或伽马而不是正态。

PS我认为杠杆点不一定缺乏相邻的观察。例如,它们可能成对出现。

上面非常直观和直观的答案,让我在二维线性回归的情况下添加一些公式。给定数据点的预测器xiy^=β0+β1xi.

只关注高杠杆xi,|xix¯|与平均水平相比异常大。同时,被异常关注yi, 当残差|y^yi|给定xi异常大。

对于相同的残差|y^y|, 高杠杆点对什么有更大的影响β1最适合数据以最小化iN(β0+β1xiy)2因为它形成产品的方式β1在预测器中。我的心理图是远离数据平均值的点比靠近平均值的点有一个“更长的杠杆”来推动斜率。