影响点、高杠杆点、离群点的具体含义和比较?
很容易说明在简单线性模型的情况下高杠杆点可能不会产生影响:
蓝线是基于所有数据的回归线,红线忽略了图右上方的点。
该点符合您刚刚提供的高杠杆点的定义,因为它与其余数据相距甚远。因此,回归线(蓝色)必须靠近它。但由于它的位置在很大程度上符合在其余数据中观察到的模式,因此另一个模型会很好地预测它(即红线无论如何都已经接近它),因此它不是特别有影响力。
将此与以下散点图进行比较:
在这里,图右侧的点仍然是一个高杠杆点,但这次它并不真正符合在其余数据中观察到的模式。蓝线(基于所有数据的线性拟合)非常接近,但红线没有。包含或排除这一点会极大地改变参数估计:它有很大的影响。
请注意,您引用的定义和我刚刚给出的示例似乎暗示高杠杆/影响点在某种意义上是单变量“异常值”,并且拟合回归线将通过接近具有最高影响的点,但它需要并非如此。
在最后一个例子中,右下角的观察对模型的拟合有(相对)大的影响(通过红线和蓝线之间的差异再次可见),但它似乎仍然远离回归线而在单变量分布中无法检测到(此处由沿轴的“地毯”表示)。
想象一下任何适合某些数据的回归线。
现在想象一个额外的数据点,一个离数据主体有一段距离的异常值,但它位于回归线的某个位置。
如果要重新拟合回归线,则系数不会改变。相反,删除额外的异常值将对系数的影响为零。
因此,如果异常值或杠杆点与其余数据和其余所暗示的模型完全一致,则其影响为零。
对于“线”,如果需要,请阅读“平面”或“超平面”,但两个变量和散点图的最简单示例在这里就足够了。
但是,由于您喜欢定义——通常,似乎倾向于过多地解读它们——这是我最喜欢的异常值定义:
“异常值是与大多数样本相关的样本值”(WN Venables 和 BD Ripley。2002 年。S. New York 的现代应用统计:Springer,p.119)。
至关重要的是,惊喜存在于旁观者的脑海中,并且取决于数据的某种默认或显式模型。可能还有另一种模型,在这种模型下异常值一点也不奇怪,比如数据是否真的是对数正态或伽马而不是正态。
PS我认为杠杆点不一定缺乏相邻的观察。例如,它们可能成对出现。
上面非常直观和直观的答案,让我在二维线性回归的情况下添加一些公式。给定数据点的预测器是 .
只关注高杠杆,与平均水平相比异常大。同时,被异常关注, 当残差给定异常大。
对于相同的残差, 高杠杆点对什么有更大的影响最适合数据以最小化因为它形成产品的方式在预测器中。我的心理图是远离数据平均值的点比靠近平均值的点有一个“更长的杠杆”来推动斜率。