我分析了一组多变量测量。众所周知,几对自变量表现出高线性相关性。下图显示了这样一对(X 和 Y,上窗格)的散点图,以及作为 Y 函数的残差(左下窗格)和这些残差的直方图(右下窗格)
可以看到,残差直方图中有一个奇怪的峰值。来自同一数据集的许多剩余的线性相关变量对具有相似的峰值。我已经仔细检查过,我确定数据集中没有重复的记录。这种行为的原因可能是什么?
PS请不要让我详细说明问题域,我不允许。
我分析了一组多变量测量。众所周知,几对自变量表现出高线性相关性。下图显示了这样一对(X 和 Y,上窗格)的散点图,以及作为 Y 函数的残差(左下窗格)和这些残差的直方图(右下窗格)
可以看到,残差直方图中有一个奇怪的峰值。来自同一数据集的许多剩余的线性相关变量对具有相似的峰值。我已经仔细检查过,我确定数据集中没有重复的记录。这种行为的原因可能是什么?
PS请不要让我详细说明问题域,我不允许。
显示如此高计数的残差值是多少?它似乎不是零(稍微在 0 的右侧),所以可能是 1?无论如何,该值可能会为您提供一些关于底层机制的见解。例如,如果 X 和 Y 是观察者进行的测量,其中一些可能倾向于遵循某种模式(即,乔认为:“每个人都知道 Y 总是比 X 高 1 点”并相应地“观察”) ,导致这样的结果。但是,如果没有领域级别的知识,很难猜测这里发生了什么。