更少的变量在逻辑回归中具有更高的 R 平方值

机器算法验证 回归 物流 解释 r平方
2022-03-21 05:52:44

我正在测试 3 种针对儿童营养不良的建模方法。从理论上讲,远端决定因素(教育、贫困)通过近端决定因素(水、卫生设施)来确定营养不良率。三个逻辑模型,其中发育迟缓是营养不良的二元指标,是:

// Proximal determinants only: both binary indicators
stunting ~ water + sanitation

// Distal determinants only: both categorical indicators
stunting ~ i.education + i.poverty

// Both proximal and distal determinants
stunting ~ water + sanitation + i.education + i.poverty

我惊讶地发现第二个模型的 r 平方值高于第三个模型,这是通过预测值和实际值 (stata) 之间的相关性计算得出的:

predict predicted, xb
corr predicted stunting
local rsq = r(rho)

虽然我预计更近端原因的关系强度和统计显着性会降低(因为它们被远端原因吸收),但我预计组合模型具有更高的解释力(以 r 平方衡量)。有人对为什么第二个模型具有最大的解释力有任何解释吗?让我知道我是否可以提供其他信息来回答这个问题。

1个回答

在解释非线性回归中的拟合时,您应该小心依赖 R^2。您可能想要比较对数似然。

然而,随着变量的增加,R^2 的减少通常意味着变量以一种不能证明模型的额外解释的方式相互作用。正如您所指出的,原因之一可能是模型中的干预变量存在问题。如果是这种情况,您可能需要找到工具变量,或使用结构模型。