机器算法验证 - 更少的变量在逻辑回归中具有更高的 R 平方值 - 吾爱随笔录

我正在测试 3 种针对儿童营养不良的建模方法。从理论上讲，远端决定因素（教育、贫困）通过近端决定因素（水、卫生设施）来确定营养不良率。三个逻辑模型，其中发育迟缓是营养不良的二元指标，是：

// Proximal determinants only: both binary indicators
stunting ~ water + sanitation

// Distal determinants only: both categorical indicators
stunting ~ i.education + i.poverty

// Both proximal and distal determinants
stunting ~ water + sanitation + i.education + i.poverty

我惊讶地发现第二个模型的 r 平方值高于第三个模型，这是通过预测值和实际值 (stata) 之间的相关性计算得出的：

predict predicted, xb
corr predicted stunting
local rsq = r(rho)

虽然我预计更近端原因的关系强度和统计显着性会降低（因为它们被远端原因吸收），但我预计组合模型具有更高的解释力（以 r 平方衡量）。有人对为什么第二个模型具有最大的解释力有任何解释吗？让我知道我是否可以提供其他信息来回答这个问题。