我的数据集包含三个变量的 365 个观察值,pm即temp和rain。现在我想检查pm响应其他两个变量变化的行为。我的变量是:
pm10= 响应(依赖)temp= 预测器(独立)rain= 预测器(独立)
以下是我的数据的相关矩阵:
> cor(air.pollution)
pm temp rainy
pm 1.00000000 -0.03745229 -0.15264258
temp -0.03745229 1.00000000 0.04406743
rainy -0.15264258 0.04406743 1.00000000
问题是在我研究回归模型的构建时,有人写道,加法是从与响应变量相关性最高的变量开始的。在我的数据集中rain,与 高度相关pm(与 相比temp),但同时它是一个虚拟变量(rain=1,no rain=0),所以我现在知道应该从哪里开始。我附上了两张带有问题的图片:第一张是数据的散点图,第二张是pm10vs.的散点图rain,我也无法解释pm10vs.的散点图rain。有人可以帮助我如何开始吗?

