我正在测试 3 种针对儿童营养不良的建模方法。从理论上讲,远端决定因素(教育、贫困)通过近端决定因素(水、卫生设施)来确定营养不良率。三个逻辑模型,其中发育迟缓是营养不良的二元指标,是:
// Proximal determinants only: both binary indicators
stunting ~ water + sanitation
// Distal determinants only: both categorical indicators
stunting ~ i.education + i.poverty
// Both proximal and distal determinants
stunting ~ water + sanitation + i.education + i.poverty
我惊讶地发现第二个模型的 r 平方值高于第三个模型,这是通过预测值和实际值 (stata) 之间的相关性计算得出的:
predict predicted, xb
corr predicted stunting
local rsq = r(rho)
虽然我预计更近端原因的关系强度和统计显着性会降低(因为它们被远端原因吸收),但我预计组合模型具有更高的解释力(以 r 平方衡量)。有人对为什么第二个模型具有最大的解释力有任何解释吗?让我知道我是否可以提供其他信息来回答这个问题。