有谁知道如何判断第 7 点、第 16 点和第 29 点是否是影响点?我在某处读到因为库克的距离小于 1,所以它们不是。我对吗?
如何阅读库克的距离图?
机器算法验证
r
回归
残差
诊断
厨师距离
2022-01-18 07:39:12
2个回答
有些文本告诉你,库克距离大于 1 的点被认为是有影响的。其他文本为您提供或的阈值,其中是观察数,是解释变量数。在您的情况下,后一个公式应该产生大约 0.1 的阈值。
John Fox (1) 在他关于回归诊断的小册子中,在给出数值阈值时相当谨慎。他建议使用图形,并更仔细地检查“D 值远大于其他值”的点。根据 Fox 的说法,阈值应该只用于增强图形显示。
在你的情况下,观察 7 和 16 可以被认为是有影响的。好吧,我至少会仔细看看它们。观察结果 29 与其他几个观察结果没有本质区别。
(1) 福克斯,约翰。(1991)。回归诊断:简介。圣人出版物。
对@lejohn 和@whuber +1。我想稍微扩展一下@whuber 的评论。库克的距离可以与 dfbeta 进行对比。库克的距离是指,如果从数据集中删除所讨论的观察值,预测的 y 值平均会移动多远。dfbeta 指的是如果从数据集中删除所讨论的观察值,参数估计会发生多大的变化。请注意,对于个协变量,将有dfbeta(截距,和每个协变量的1 个如果您进行预测建模,Cook 距离可能对您更重要,而 dfbeta 在解释性建模中更重要。
这里还有一点值得说明。在观察性研究中,通常很难在预测变量空间中进行均匀采样,并且在给定区域中可能只有几个点。这些点可能与其他点不同。有一些不同的案例可能会令人不安,但在被降级为异常值之前值得深思熟虑。预测变量之间可能存在合理的相互作用,或者当预测变量值变得极端时,系统可能会转变为不同的行为。此外,它们可能能够帮助您解开共线预测变量的影响。有影响力的观点可能是因祸得福。
其它你可能感兴趣的问题