据我了解,库克距离是通过在拟合模型时排除点来衡量每次观察的影响的。所以我认为这可能是异常值检测的合理方法?
我的问题,假设数据被分类成组,是否可以使用库克的距离来检测“异常值”组而不是异常点?库克距离是衡量群体影响力的好选择吗?
据我了解,库克距离是通过在拟合模型时排除点来衡量每次观察的影响的。所以我认为这可能是异常值检测的合理方法?
我的问题,假设数据被分类成组,是否可以使用库克的距离来检测“异常值”组而不是异常点?库克距离是衡量群体影响力的好选择吗?
就像你说的库克距离通过删除每个单独的点来衡量回归的变化。如果由于遗漏了一个点而发生了相当大的变化,那么那个点就会对你的模型产生很大的影响。定义为当从数据集中删除第 i 个观测值时第 j 个观测值的拟合值。库克距离衡量改变了所有预测的程度。
如果它是极端的(对于中小型数据集)。
库克距离显示第 i 个案例对所有拟合值的影响。请注意,第 i 种情况可能受以下因素影响
大和中等
中等和大
大和大
在 R 中,使用influence.measures包cooks.distance(model)
库克的 D 在检测异常值集群方面无效,因为删除其中一个不会对模型产生太大影响(还有其他异常值)。
您可以使用残差作为衡量指标,这对集群很敏感。k-means 的简单实现也是有效的。