当关联最强的预测变量是二元时如何开始构建回归模型

机器算法验证 相关性 多重回归 多重共线性 回归策略
2022-03-08 12:51:49

我的数据集包含三个变量的 365 个观察值,pmtemprain现在我想检查pm响应其他两个变量变化的行为。我的变量是:

  • pm10= 响应(依赖)
  • temp= 预测器(独立)
  • rain= 预测器(独立)

以下是我的数据的相关矩阵:

> cor(air.pollution)
               pm        temp       rainy
pm     1.00000000 -0.03745229 -0.15264258
temp  -0.03745229  1.00000000  0.04406743
rainy -0.15264258  0.04406743  1.00000000

问题是在我研究回归模型的构建时,有人写道,加法是从与响应变量相关性最高的变量开始的。在我的数据集中rain,与 高度相关pm(与 相比temp),但同时它是一个虚拟变量(rain=1,no rain=0),所以我现在知道应该从哪里开始。我附上了两张带有问题的图片:第一张是数据的散点图,第二张是pm10vs.的散点图rain,我也无法解释pm10vs.的散点图rain有人可以帮助我如何开始吗?

这是我的数据的散点图

pm10 vs rain的散点图

2个回答

许多人认为您应该使用某种策略,例如从关联度最高的变量开始,然后依次添加其他变量,直到其中一个变量不显着为止。但是,没有任何逻辑可以强制采用这种方法。此外,这是一种“贪婪”变量选择/搜索策略(参见我的答案:自动模型选择算法)。 你不必这样做,真的,你不应该这样做。如果你想知道pm, 和temp和之间的关系rain,只需拟合包含所有三个变量的多元回归模型。您仍然需要评估模型以确定它是否合理并满足假设,但仅此而已。如果你想检验一些先验假设,你可以用模型来做。如果您想评估模型的样本外预测准确性,您可以通过交叉验证来做到这一点。

您也不必真正担心多重共线性。temp之间的相关性在您的相关矩阵rain中列出。0.044这是一个非常低的相关性,不应该引起任何问题。

虽然这并不能直接解决您已经收集的数据集,但您下次收集此类数据时可以尝试的另一件事是避免将“雨”记录为二进制文件。如果您改为测量降雨率(厘米/小时),您的数据可能会提供更多信息,这将为您提供一个从 0...max_rainfall 连续分布的变量(取决于您的测量精度)。

这不仅可以让您将“下雨”与其他变量相关联,还可以将“下雨多少”相关联。