我正在观察我的数据残差中的奇怪模式:
[编辑] 以下是两个变量的偏回归图:
[EDIT2] 添加了 PP 图
分布似乎很好(见下文),但我不知道这条直线可能来自哪里。有任何想法吗?
[更新 31.07]
事实证明你是绝对正确的,我有转发计数确实为 0 的案例,而这 ~ 15 个案例导致了那些奇怪的残留模式。
残差现在看起来好多了:
我还包括了带有黄土线的部分回归。
我正在观察我的数据残差中的奇怪模式:
[编辑] 以下是两个变量的偏回归图:
[EDIT2] 添加了 PP 图
分布似乎很好(见下文),但我不知道这条直线可能来自哪里。有任何想法吗?
[更新 31.07]
事实证明你是绝对正确的,我有转发计数确实为 0 的案例,而这 ~ 15 个案例导致了那些奇怪的残留模式。
残差现在看起来好多了:
我还包括了带有黄土线的部分回归。
似乎在它的某些子范围内,您的因变量是恒定的,或者完全线性地依赖于预测变量。让我们有两个相关变量,X 和 Y(Y 是相关的)。散点图在左边。
例如,让我们返回第一种(“常数”)可能性。将所有 Y 值从最低到 -0.5 重新编码为单个值 -1(参见中间的图片)。在 X 上回归 Y 并绘制残差散布图,即旋转中心图片,使预测线现在是水平的。和你的照片一样吗?
您在直方图中看不到模式也就不足为奇了,奇数模式跨越了直方图的相当大的范围,并且仅代表每个 bin 中的几个数据点。您确实需要找出这些数据点并查看它们。您可以使用预测值和残差来轻松找到它们。一旦你找到这些值,就开始调查为什么这些值可能是特殊的。
话虽如此,这种特殊的模式之所以特别,只是因为它很长。如果您仔细查看残差图和分位数图,您会看到它重复但它是较小的序列。也许它真的只是一个异常。或者也许它真的是一种重复的模式。但是,您将不得不找到它在原始数据中的位置并对其进行检查,以便有希望完全理解它。
为了给您一些帮助,分位数-分位数图表明您有一堆相同的残差。有可能是编码错误。我可以在 R 中生成类似的东西......
x <- c(rnorm(50), rep(-0.2, 10), rep(0, 4))
qqnorm(x);qqline(x)
注意平线中的两个平点。然而,它似乎比这更复杂,因为这意味着相同的残差会出现在一系列预测变量中。
看起来你正在使用R
. 如果是这样,请注意您可以使用?identify 识别散点图上的点。我认为这里发生了几件事。首先,您在(突出显示的那个)的图上有一个非常有影响力的点LN_RT_vol_in ~ LN_AT_vol_in
,大约在 (.2, 1.5)。这很可能是大约 -3.7 的标准化残差。该点的效果将是使回归线变平,使其比您本来会得到的急剧向上的线更水平地倾斜。这样做的效果是,所有残差都将相对于它们在图中的位置逆时针旋转residual ~ predicted
(至少在考虑该协变量并忽略另一个时)。
尽管如此,您看到的明显的残差直线仍然存在,因为它们存在于原始数据的 3 维云中的某个位置。它们可能很难在任一边缘图中找到。您可以使用 identify() 函数提供帮助,也可以使用rgl包创建动态 3D 散点图,您可以使用鼠标自由旋转。但是要注意,直线残差在其预测值中都低于0,并且有低于0的残差(即它们在拟合回归线之下);这给了你在哪里看的一个很大的提示。再看看你的情节LN_RT_vol_in ~ LN_AT_vol_in
,我想我可能会看到他们。在该区域的点云的下边缘,有一个相当直的点簇从大约 (-.01, -1.00) 对角向下和向左延伸。我怀疑这些是有问题的点。
换句话说,残差看起来是这样的,因为它们已经在数据空间中的某个地方。从本质上讲,这就是@ttnphns 的建议,但我认为它在任何原始维度中都不是一个常数——它在与原始轴成一定角度的维度中是一个常数。我进一步同意@MichaelChernick 的观点,即残差图中这种明显的直线度可能是无害的,但您的数据并不是很正常。但是,它们有些正常,而且您似乎拥有大量数据,因此 CLT 可能会覆盖您,但您可能需要引导以防万一。最后,我担心那个“异常值”会推动你的结果;一个稳健的方法可能是值得的。
我不一定会说直方图没问题。在直方图上直观地叠加最佳拟合法线可能具有欺骗性,并且您的直方图可能对 bin 宽度的选择很敏感。正态概率图似乎表明与正常有很大的偏差,即使查看直方图,在我看来似乎也有轻微的偏斜(与 [-0.5,0] 相比,[0,+0.5] 箱中的频率更高)和严重的峰度(区间 [-4,-3.5] 和 [2.5, 3] 中的频率太大)。
关于您看到的模式,它可能来自通过散点图进行的选择性探索。看起来如果你再打猎,你会发现两到三条线几乎与你挑选的那条线平行。我认为您对此的了解太多了。但非正态性是一个真正的问题。你有一个非常大的异常值,残差接近 -4。这些残差是否来自最小二乘拟合?我同意在数据的散点图上查看拟合线可能会很有启发性。