将模型之间的回归系数与标准化因变量进行比较

机器算法验证 回归 标准化 模型比较
2022-04-13 13:35:53

情况:我有四个相似的空间回归模型,只是它们的因变量不同。自变量由从主成分分析得出的一组标准变量组成。因变量已通过使用每个观察的标准分数进行标准化。

问题:可以直接比较模型之间的回归系数吗?例如,我可以说因为 IV 的系数在使用第一个 DV 的模型中为 0.25,而在使用第二个 DV 的模型中为 0.50,因此 IV 在第一个模型中的影响是影响的两倍第二个模型?

多一点背景:

我正在使用四个空间空间回归模型来研究与某个地区的贫困相关的社会人口因素。观察单位是人口普查区。

这四个模型是相同的,除了使用的因变量。每个模型都具有来自相同位置和数据集的相同自变量集。自变量是使用来自主成分分析的因素得出的。

使用的因变量代表了衡量人口普查区福祉的四种不同方法,它们是:1)使用贫困线 A 的每个人口普查区的贫困人口百分比,2)使用贫困线的每个人口普查区的贫困人口百分比B, 3) 人口普查区的人均收入,和 4) 人口普查区收入与地区平均收入的比率。

然而,我没有使用 DV 的观察值,而是使用了每个观察值的标准分数(z 分数),目的是使回归结果在模型之间具有可比性。

更复杂的是:其中两个变量直接衡量贫困,而另外两个衡量收入,因此 IV 和 DV 之间关系的方向已经颠倒了。这会在直接比较回归系数时导致任何其他问题吗?

1个回答

不,您不能仅通过比较模型中的系数来说明自变量对一个 DV(因变量)的影响是另一个 DV 的两倍。为什么?因为在上述所有四种情况下,您的因变量都没有测量可比较的数量。

让我们举一个不同的例子来突出这个奇怪之处:在一个模型中,降雨量预测年作物产量,单位为吨谷物/英亩/年(coef = 0.5),而在另一个模型中,它还预测人口密度(人/英亩)(coef = 20)。这是否意味着降雨对人口密度的影响比对作物产量的影响更大?好吧,假设您以谷物/英亩/年的千克数来衡量作物的年产量,那么您的降雨系数将为 500(0.5 * 1000,因为 1 吨 = 1000 公斤)。单位的这种变化会颠倒层次结构和你的结论,这显然没有意义。所以基本问题是年作物产量和人口密度没有可比单位。

可以通过标准化因变量来解决,在这种情况下,系数解释将是降雨的单位变化导致作物产量或人口密度考虑到数据的变化,一个模型中较大的系数可以解释为降雨对一个量有更强影响的证据x

现在,您实际上确实有两个具有可比单位的 DV:按贫困线 A 和 B 计算的贫困人口百分比。因此,原则上,您可以对这两种情况(但不能对其他情况)进行比较。但是在解释这一点时您可能应该小心,因为两者测量的数量完全相同,但截止值不同。自变量影响的差异告诉您有关截止值的一些信息,这在您拟合模型之前可能应该很明显。