具有高库克距离的点是否必然具有高标准化残差,反之亦然?

机器算法验证 回归 异常值 残差 厨师距离
2022-04-08 12:41:50

我有以下两个问题:

  1. 如果一个数据点的烹饪距离非常出色(大于 4/(np-1))而其标准化残差小于 2,那么它是否会成为一个影响点?在我看来,要说一个数据点是一个有影响的点,它的库克距离必须大于 4/(np-1)) 并且它的标准化残差必须大于 2,对吗?

  2. 有时当我们删除一个有影响的点时,回归线并没有太大变化,然后我们将数据点留在模型中。但是为什么影响点没有太大改变回归线呢?根据其大的厨师距离,数据点是影响点,作为影响点意味着数据点如果被删除,回归线必须有很大的变化,否则它不应该被称为影响点,不是它?

1个回答

1. 如果一个数据点具有较大的库克距离,即使它具有较低的标准化残差,它仍然可以被认为是有影响的。

下图(取自 Andy Field 的 Discovering Statistics Using IBM SPSS 3e 的 p214)可能有助于阐明这两个概念之间的区别。

在此处输入图像描述

红线表示回归模型,而蓝色虚线表示删除数据点 8 后的回归模型。请注意,数据点 8 的残差统计量非常小,因为它非常接近红线。然而,它会产生巨大的影响统计(根据教科书,它的库克距离为 227.14!),因为当它被省略时,模型会发生根本性的变化。

2. 我觉得说“有时候我们删除一个有影响的点,回归线变化不大”是不对的。

如果回归模型在省略数据点的情况下没有太大变化,那么我认为说数据点有影响是不公平的。

这是维基百科对有影响力的数据点的定义:

[I]在回归分析中,影响点是删除对参数估计有很大影响的点