线性回归中的奇怪残差

机器算法验证 回归 数据集 异常值 残差
2022-03-23 15:08:11

我分析了一组多变量测量。众所周知,几对自变量表现出高线性相关性。下图显示了这样一对(X 和 Y,上窗格)的散点图,以及作为 Y 函数的残差(左下窗格)和这些残差的直方图(右下窗格)

数据示例

可以看到,残差直方图中有一个奇怪的峰值。来自同一数据集的许多剩余的线性相关变量对具有相似的峰值。我已经仔细检查过,我确定数据集中没有重复的记录。这种行为的原因可能是什么?

PS请不要让我详细说明问题域,我不允许。

1个回答

显示如此高计数的残差值是多少?它似乎不是零(稍微在 0 的右侧),所以可能是 1?无论如何,该值可能会为您提供一些关于底层机制的见解。例如,如果 X 和 Y 是观察者进行的测量,其中一些可能倾向于遵循某种模式(即,乔认为:“每个人都知道 Y 总是比 X 高 1 点”并相应地“观察”) ,导致这样的结果。但是,如果没有领域级别的知识,很难猜测这里发生了什么。