看起来我无法直接对辛普森博士的回答添加长评论。对不起,我必须把我的回应放在这里。
非常感谢您的回复,辛普森博士!我应该稍微澄清一下我的论点。我在部分业务上遇到的问题不是理论问题,而是实际问题。假设线性回归模型具有以下形式
y = a + b * 性别 + 其他固定效应 + 残差
我完全同意,从理论的角度来看,无论我们如何量化 Sex 变量,我们都会有相同的残差。即使我用一些疯狂的数字对主题进行编码,例如男性 = 10.7 和女性 = 53.65,我仍然会得到与r1
你r2
的示例相同的残差。然而,这些论文中重要的不是残差。相反,重点是解释a
上述模型中的截距和其他固定效应,这可能会在偏分时引起问题。考虑到这样的重点,性的编码方式似乎确实对上述模型中所有其他效应的解释产生了重大影响。使用虚拟编码(options(contrasts = c("contr.treatment", "contr.poly"))
在 R) 中,除“b”外的所有其他效果都应解释为与代码“0”(男性)的性别组相关联。使用效果编码(options(contrasts = c("contr.sum", "contr.poly"))
在 R 中),除b
性别之外的所有其他效果都是整个人群的平均效果。
使用您的示例,模型简化为
y = a + b * 性别 + 残差。
关于截距的估计,以下问题可以清楚地看到a
:
> summary(m1)
Call: lm(formula = Size ~ Sex, data = dat)
...
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 180.9526 0.9979 181.332 < 2e-16 ***
> summary(m2)
Call: lm(formula = Size ~ Sex, data = dat)
...
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 175.4601 0.7056 248.659 < 2e-16 ***
最后,看来我必须同意我原来的论点(3)可能无效。继续你的例子,
> options(contrasts = c("contr.sum", "contr.poly"))
> m0 <- lm(Size ~ 1, data = dat)
> summary(m0)
Call: lm(formula = Size ~ 1, data = dat)
...
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 175.460 1.122 156.4 <2e-16 ***
似乎在模型中包含性别不会改变效果估计,但它确实增加了统计能力,因为数据中的更多可变性是通过性别效应来解释的。我之前在论点 (3) 中的错觉可能来自一个具有巨大样本量的数据集,其中在模型中添加 Sex 并没有真正改变其他影响的重要性。
然而,在传统的平衡方差分析类型分析中,由于方差的正交划分,诸如性别之类的主体间因素不会对与该因素无关的那些影响产生影响?