我的残差图上出现线性模式:我该怎么办?

机器算法验证 回归 残差 多重共线性 正态假设 非线性
2022-03-13 01:45:31

我在这里遇到了一个问题,任何帮助都会有很大帮助:)

只是为了提供有关我的数据的线索。我有 6 个自变量 (IV),它们是:

  • X1 = 人口-在一个街区内-
  • X2 = 家庭 - 在一个街区内 -
  • X3 = 房间总数 - 合计 -
  • X4 = 总卧室-聚合-
  • X5 = 收入中位数
  • X6 = 海洋接近度 [分类]

我的因变量 (DV) 是 = 房价中值。Y

我进行了包括所有 IV 的回归,但除了巨大的多重共线性之外,几乎所有 OLS 假设都存在违规。这是任何调整之前的残差图和正态图。

在此处输入图像描述

然后我所做的是使用 Box-Tidwell 方法转换我所有的 IV 和我的 DV,我认为这不是解决问题的正确方法,所以这是我的第一个问题,我能做些什么来解决正常性问题?

另一个问题是,即使在转换了所有变量之后,我的残差图中仍然存在问题,这是这里的主要问题。我在图表上有一个我不知道如何解决的线性模式。我分别针对每个 IV 运行我的 DV,但仍然有同样的问题。这是转换后的模型的图表。

在此处输入图像描述

4个回答

只是为了帮助您更好地了解您在残差图中看到的内容,您的数据如下所示:

在此处输入图像描述

在价格封顶之前,您的模型很好;那么您需要确定模型的其余部分是否有效。上限价格必须是由于高于该价格的未记录数据,因为您不会期望在现实中看到针对您的特定问题的数据。因此,您必须考虑高于该价格的数据是什么样的。一旦超过灰线,线性关系可能不再成立,这将是此处使用线性模型的限制。数据在现实中可能会弯曲和变平,在这种情况下,对数曲线会更好地拟合,因此使用线性模型预测该线以上的数据是不明智的。

另外,您是否关心灰线上方会发生什么,或者您只需要模型有效的部分的模型?如果您只对模型中有效的部分感兴趣,那么您无需担心其余部分。这些是您可能需要考虑的一些事情。

我不确定为什么选择具有许多假设的线性模型作为默认模型。序数半参数模型非常有效,并且对于 Y 的变换方式是不变的。它们允许地板和天花板效果、双峰以及您可以扔给它们的任何其他类型的分布怪癖。最流行的半参数模型是比例赔率和比例风险模型。

我也不想预先假设连续预测变量是线性运行的。我会使用回归样条来扩展它们,例如受限三次样条(又名自然样条)。详细的案例研究可以在RMS 课程笔记的第 11 章中找到。

线性边界后的残差通常是天花板效应或地板效应的结果。如果您的样本足够大,则结果只会有轻微偏差(请注意,如果您使用大样本,线性模型对正态性违规非常稳健,例如,与同方差违规不同)。

基本上,您有两种选择。您可以使用不同的模型(例如对数正态回归、泊松回归,具体取决于具体数据),或者您可以忽略该问题并依赖于结果仅略有偏差这一事实,因为您拥有大量数据集。

关于线性模式:当您的响应对多个观察值取相同值时,这种情况经常发生。对于这些观察,(ypred)当然是一个线性函数pred, 作为y是恒定的。