机器算法验证 - 控制和治疗之间的差异应该显式地建模还是隐式地建模？ - 吾爱随笔录

控制和治疗之间的差异应该显式地建模还是隐式地建模？

机器算法验证回归方差分析线性模型安乔娃

2022-03-11 02:17:04

给定以下实验设置：

多个样本取自受试者，每个样本都经过多种处理（包括对照处理）。主要有趣的是对照和每种治疗之间的差异。

我可以为这些数据想出两个简单的模型。以样本，处理，处理 0 为对照，设为数据，为样本的基线，为处理的差异。第一个模型同时关注控制和差异： $i$ $j$ $Y_{ij}$ $\gamma_i$ $i$ $\delta_j$ $j$

Y_{i j} = γ_{i} + δ_{j} + ϵ_{i j}

$Y_{ij}=\gamma_i+\delta_j+\epsilon_{ij}$

δ_{0} = 0

$\delta_0=0$

而第二个模型只关注差异。如果我们预先计算d_ 那么 $d_{ij}$

d_{i j} = Y_{i j} - Y_{i 0}

$d_{ij}=Y_{ij}-Y_{i0}$

d_{i j} = δ_{j} + ε_{i j}

$d_{ij}=\delta_j+\varepsilon_{ij}$

我的问题是这两种设置之间的根本区别是什么？特别是，如果级别本身没有意义，只有差异很重要，那么第一个模型是否做得太多并且可能动力不足？

1个回答

可能在第二个模型中相关，但不是第一个。 $\epsilon_{ij}$

首先，这些项表示测量误差和与加法模型的偏差。通过合理的谨慎——例如通过随机化测量顺序——当模型准确时，这些误差可以独立存在。何处

d_{i j} = Y_{i j} - Y_{i 0} = γ_{i} + δ_{j} + ϵ_{i j} - (γ_{i} + δ_{0} + ϵ_{i 0}) = δ_{j} + (ϵ_{i j} - ϵ_{i 0}) .

$d_{ij} = Y_{ij} - Y_{i0} = \gamma_i + \delta_j + \epsilon_{ij} - (\gamma_i + \delta_0 + \epsilon_{i0}) = \delta_j + (\epsilon_{ij} - \epsilon_{i0}).$

（请注意，这与问题中的最后一个方程相矛盾，因为假设是错误的。这样做会迫使我们承认是随机变量而不是参数，至少一旦我们承认控制测量误差的可能性。这将导致以下相同的结论。） $\epsilon_{i0}=0$ $\gamma_i$

对于 ,这意味着 $j, k \ne 0$ $j \ne k$

C o v (d_{i j}, d_{i k}) = C o v (ϵ_{i j} - ϵ_{i 0}, ϵ_{i k} - ϵ_{i 0}) = V a r (ϵ_{i 0}) \neq 0.

$Cov(d_{ij}, d_{ik}) = Cov(\epsilon_{ij} - \epsilon_{i0}, \epsilon_{ik} - \epsilon_{i0}) = Var(\epsilon_{i0}) \ne 0.$

相关性可能很大。对于 iid 错误，类似的计算表明它等于 0.5。除非您正在使用明确且正确地处理这种相关性的程序，否则请优先使用第一个模型而不是第二个模型。

其它你可能感兴趣的问题

上一篇预测受 (0,1) 限制的百分比的时间序列模型是什么？下一篇使用中值和图形表示报告错误？