控制和治疗之间的差异应该显式地建模还是隐式地建模?

机器算法验证 回归 方差分析 线性模型 安乔娃
2022-03-11 02:17:04

给定以下实验设置:

多个样本取自受试者,每个样本都经过多种处理(包括对照处理)。主要有趣的是对照和每种治疗之间的差异。

我可以为这些数据想出两个简单的模型。以样本,处理,处理 0 为对照,设为数据,为样本的基线,为处理的差异。第一个模型同时关注控制和差异:ijYijγiiδjj

Yij=γi+δj+ϵij
δ0=0

而第二个模型只关注差异。如果我们预先计算d_ 那么 dij

dij=YijYi0
dij=δj+εij

我的问题是这两种设置之间的根本区别是什么?特别是,如果级别本身没有意义,只有差异很重要,那么第一个模型是否做得太多并且可能动力不足?

1个回答

可能在第二个模型中相关,但不是第一个ϵij

首先,这些项表示测量误差和与加法模型的偏差。通过合理的谨慎——例如通过随机化测量顺序——当模型准确时,这些误差可以独立存在。何处

dij=YijYi0=γi+δj+ϵij(γi+δ0+ϵi0)=δj+(ϵijϵi0).

(请注意,这与问题中的最后一个方程相矛盾,因为假设是错误的。这样做会迫使我们承认是随机变量而不是参数,至少一旦我们承认控制测量误差的可能性。这将导致以下相同的结论。)ϵi0=0γi

对于 ,这意味着j,k0jk

Cov(dij,dik)=Cov(ϵijϵi0,ϵikϵi0)=Var(ϵi0)0.

相关性可能很大。对于 iid 错误,类似的计算表明它等于 0.5。除非您正在使用明确且正确地处理这种相关性的程序,否则请优先使用第一个模型而不是第二个模型。