这个情节告诉我关于我的线性模型的什么信息?
这种“问题”很自然地发生,可以这样看,但实际上并不表示问题。(可能存在一些问题,但与此类似的模式不一定表示存在问题。)
这是回归均值的结果,并且直接源于拟合条件均值(即,这正是您期望在回归中看到的)。
可能会让一些回答者失望的一件事是,您的情节“倒退”到了我们大多数人的习惯——随机变量位于 x 轴而不是 y 轴上。
在这里,我根据回归模型(具有正态分布的预测变量和条件正态响应)生成了一些数据,并拟合了与生成数据的模型相同形式的模型。这是与您相反的绘图:
查看蓝线之间的切片,红线(即斜率为 1 和截距为 0 的线)非常接近在那个切片中。那是,.
你在问你是否应该“调整”你的线以靠近大致椭圆点云的主轴......但这不会是“最适合”的线,并且会倾向于高估大的平均值值并低估它的小 y 值。
如果回归假设是合理的,并且假设您实际上想要预测, 那么这里就没有问题了——你看到了你应该看到的东西。
您可能会看到类似这样的情况,并且这 可能 是一个问题:
但是,如果您在云边缘的线没有通过小切片(在我的情况下为垂直切片)的中间附近,这可能表明您有一些预测不足(例如,如果您正在缩小系数,可能会发生这种情况)。
这可能是也可能不是问题:将系数缩小到零通常非常有用;这会导致偏见,但偏见并不是拟合的全部。
系数中向零(收缩)的少量偏差会产生比最小二乘线稍微“浅”的拟合(在我的图上;在你的图上更陡峭)。这根本不是问题。
只有当偏见比你想要的大时,才有必要采取行动。否则它仍然可以做它应该做的事情。
所以我在这里没有看到问题——在我看来,你的模型正在做它应该做的事情。
作为参考,这里是翻转问题的情节:
有一些暗示它略微偏向 0(如前所述,这可能不是问题),也可能是非线性关系的轻微暗示(这可能是一个问题)。
这些结果告诉你的是,在这种类型的建模中几乎是不可避免的:基于训练集的模型也不适合测试集。您面临的问题类型(线性预测变量与训练集和测试集之间的结果变量之间的关系斜率存在差异)似乎是校准问题之一,如这里在逻辑回归的上下文中所述。
您对“旋转”直线斜率的建议类似于“缩小”回归系数以提高对新数据的预测能力的一般想法,但最好使用rmsR 中的包提供的既定方法。注意这些努力必然需要在预测建模中进行偏差-方差权衡。如果您不熟悉这种权衡,您应该阅读An Introduction to Statistical Learning或类似的一般参考。
此外,单独的训练集和测试集可能不是使用数据的最有效方式;在整个数据集上开发模型并通过自举重采样检查和调整校准可能会更好。考虑查阅 Frank Harrell 的课程笔记或他的书以了解更多详细信息。
请检查您的轴是否正确标记。通常,人们期望预测值过于乐观,预测值的范围比观察到的范围更广。此外,您的结果范围表明您可能使用比例作为结果变量。如果是这样,那么如果您使用标准线性回归来开发模型,则可能会出现问题。
我认为这里的大部分相关信息都是由@EdM 提供的。让我补充一些想法:
关于您的情节,我会将预测值放在 x 轴上,将观察值放在 y 轴上。这就是更典型地构建散点图的方式,并且可能有助于解释。此外,我会将绘图设为正方形并强制绘图区域在相同的可能值范围内(例如,到) 在两个维度上。最后,我将绘制一个 LOWESS 拟合以及一对一的线。这些应该使正在发生的事情更容易看到。
我的猜测是,您的拟合模型相对于测试数据的斜率太浅,但平均预测没有偏差(太多)。这不应该经常发生。如果您的数据被随机分成训练和测试,它们应该非常相似,因此斜率不会相差太大。鉴于您似乎拥有大量数据,这也是正确的。这应该使估计相当稳定。对我来说,这些事实提出了一些问题:
- 分裂是随机的,还是通过一些预先存在的群体结构(例如,男性与女性)?
- 你是否做了很多拟合来得到你的模型(以至于它被过度拟合了)?更具体地说,你的建模过程是什么?
- 您在原始模型(和/或相对于数据量)中有很多变量或变量的复杂函数吗?
这里需要更多信息。
您也可能在数据中遗漏了一些曲率。



