异常值如何影响逻辑回归?

机器算法验证 回归 机器学习 物流 广义线性模型 残差
2022-04-08 11:31:13

我了解带有平方损失的线性回归的异常影响。@gung在这篇文章中有一个很好的答案来解释杠杆和残差的概念。

我的问题是异常值如何影响逻辑回归相同的概念是否适用?(我们想仔细看看高杠杆/剩余点?)

例如Rplot(glm(am~wt,mtcars,family="binomial"))是告诉我Toyota Corona有高杠杆和残差,我应该仔细看看吗?

在此处输入图像描述


我发现这篇文章说逻辑回归对异常值是稳健的,但没有讨论杠杆和残差。这是对的吗?

在此处输入图像描述

1个回答

异常值对逻辑回归的本质影响可能与它们在线性回归中的影响相同:通过删除异常观察值拟合的删除诊断模型可能具有大于全模型系数的 DF-beta;这意味着关联的 sigmoid 斜率可能是相反的方向。另外,两个模型中的推论可能不一致,表明一个犯了 II 类错误,或者另一个犯了 I 类错误。

这一点强调了一个问题,即当遇到异常值时,应该立即删除它们。

逻辑回归数据分析的含义也是相同的:如果有一个观察(或一小群观察)完全驱动估计和推断,则应在数据分析中对其进行识别和讨论。DF-beta 残差诊断是一种有效的数值和图形工具,适用于任何一种模型,统计学家和非统计学家都易于解释。

有一些差异需要讨论。在线性回归中,使用散点图很容易可视化异常值。与最佳拟合线的比例垂直位移以及与预测尺度 X 质心的比例水平距离共同决定了观察的影响和杠杆作用(离群值)。对于逻辑模型,均值-方差关系意味着垂直位移的比例因子是拟合 sigmoid 斜率的连续函数。尾部越远,平均值越接近 0 或 1,导致方差更小,因此看似小的扰动会对估计和推理产生更大的影响。然而,虽然线性回归中的 Y 值可能任意大,但拟合和观察到的逻辑值之间的最大拟合距离是有界的。这是否意味着逻辑回归对异常值具有鲁棒性?绝对不。