库克检测异常值的距离

机器算法验证 混合模式 异常值 群体差异 厨师距离
2022-03-19 07:03:57

据我了解,库克距离是通过在拟合模型时排除点来衡量每次观察的影响的。所以我认为这可能是异常值检测的合理方法?

我的问题,假设数据被分类成组,是否可以使用库克的距离来检测“异常值”组而不是异常点?库克距离是衡量群体影响力的好选择吗?

2个回答

就像你说的库克距离通过删除每个单独的点来衡量回归的变化。如果由于遗漏了一个点而发生了相当大的变化,那么那个点就会对你的模型产生很大的影响。定义为当从数据集中删除第 i 个观测值时第 j 个观测值的拟合值。库克距离衡量改变了所有预测的程度。Y^j(i)i

Di=j=1nY^jY^j(i))2pMSE
=ei2pMSE[hii(1hii)2]

如果它是极端的(对于中小型数据集)。Di1

库克距离显示第 i 个案例对所有拟合值的影响。请注意,第 i 种情况可能受以下因素影响

  1. 和中等eihii

  2. 中等和大eihii

  3. 和大eihii

在 R 中,使用influence.measurescooks.distance(model)

库克的 D 在检测异常值集群方面无效,因为删除其中一个不会对模型产生太大影响(还有其他异常值)。

您可以使用残差作为衡量指标,这对集群很敏感。k-means 的简单实现也是有效的。