库克距离与帽子值

机器算法验证 厨师距离 杠杆作用
2022-03-18 19:11:51

库克的距离究竟测量的是什么?这与帽子值衡量的有什么不同?

我知道帽子值衡量的是它与相应拟合点的距离。我也知道库克的距离测量了一个点的影响(它是否改变了拟合线),但它到底测量的是什么?

换句话说,帽子值和库克距离之间到底有什么区别?

2个回答

厨师的距离由公式给出: Di=j=1n(Y^jY^j(i))2pMSE

在哪里:

  • Y^j是第 j 个观测值的拟合值;
  • Y^j(i)是第 j 个观测值的拟合值,不包括将生成模型的数据中的第 i 个观测值;
  • p 是模型中的参数个数;
  • MSE 即模型的均方误差。

这意味着厨师的距离衡量模型中每个观察值的影响,或者“如果每个观察值不在模型中会发生什么”,这很重要,因为它是检测异常值的一种方法,特别影响回归线。当我们不寻找和处理数据中的潜在异常值时,模型的调整系数可能不是最具代表性或不恰当的,从而导致错误的推断。

帽子值是拟合值,或模型对每个观测值所做的预测。这与库克的距离完全不同。

Cooks 距离显示了如果(xi,yi)已移除。我不太清楚你所说的“帽子价值”是什么意思。你的意思是ei=yiy^i, 或者hii在帽子矩阵中H(即杠杆)?无论哪种方式,它们都与厨师距离不同。

请注意,厨师距离采用以下形式

Di=ei2s2p[hii(1hii)2]
,所以它与残差有关ei和杠杆hii. 大的Di可能是由于大ei或者hii, 或两者。

可能的原因

大残差eiyi远离拟合值(可能是异常值)

大杠杆hiixi远离其他xj's (影响点由于值x)