背景:当查看由截止阈值定义的人口子集时,我的问题与估计效应大小有关,例如 Cohen 的 d。该效应大小是两个总体均值的差除以(假设相等)总体标准差。
假设有一个来自人口的样本,其变量具有“真实”值将在两个时间点和测量误差,给出测量值 ,。在时间,我们 if ”为一些固定定义人口的目标是估计处子集的方差,(或等效地,在除之外的任何时间测量的子集中)。我们不能使用子集在处的估计方差,因为处的方差会更大。
示例代码显示处子集的标准偏差大于处的标准偏差。
set.seed(1)
N <- 1000
Y0 <- rnorm(N,mean=0,sd=1)
Y1 <- Y0 + rnorm(N,mean=0,sd=0.5)
Y2 <- Y0 + rnorm(N,mean=0,sd=0.5)
indx <- Y1 > 1
sd(Y1[indx])
# [1] 0.6007802
sd(Y2[indx])
# [1] 0.8145581
这种现象,阈值子集的方差在重新测量时增加,有名称吗?任何人都可以分享任何参考资料来帮助理解它,无论是在一般情况下还是在效果大小的特定背景下?