在用截止值进行子集化后重新测量时方差的增加是否有名称?

机器算法验证 方差 规模效应 临界点 子集
2022-03-26 07:21:56

背景:当查看由截止阈值定义的人口子集时,我的问题与估计效应大小有关,例如 Cohen 的 d。该效应大小是两个总体均值的差除以(假设相等)总体标准差。

假设有一个来自人口的样本,其变量具有“真实”值将在两个时间点测量误差,给出测量值 ,在时间,我们 if ”为一些固定定义人口目标是估计处子集的方差,(或等效地,YYi0t1t2Yi1=Yi0+ϵi1Yi2=Yi0+ϵi2t1JiJYi1>aat2V[Y2j|jJ]Y在除之外的任何时间测量的子集中)。我们不能使用子集在处的估计方差,因为处的方差会更大。t1t1t2

示例代码显示处子集的标准偏差大于处的标准偏差。t2t1

set.seed(1)
N <- 1000
Y0 <- rnorm(N,mean=0,sd=1)
Y1 <- Y0 + rnorm(N,mean=0,sd=0.5)
Y2 <- Y0 + rnorm(N,mean=0,sd=0.5)
indx <- Y1 > 1
sd(Y1[indx])
# [1] 0.6007802
sd(Y2[indx])
# [1] 0.8145581

这种现象,阈值子集的方差在重新测量时增加,有名称吗?任何人都可以分享任何参考资料来帮助理解它,无论是在一般情况下还是在效果大小的特定背景下?

1个回答

这是一种对均值的回归,在这种特定情况下,适用于方差或标准差。当基于非常高或非常低的值选择对象并观察到后续测量值将更接近平均值时,会观察到向平均值的回归。

例如,如果您比较班级中最好的学生并检查他们在一段时间内的轨迹(还有许多其他情况可能!),可以观察到向均值的回归。在 T1,您根据度量 选择最好的学生Y1,例如,indx <- Y1 > 1然后在T2,我们应该看到人口参数的趋势(在本例中: ,μ=0σ=1.25

set.seed(1)
N <- 1000
Y0 <- rnorm(N,mean=0,sd=1)
Y1 <- Y0 + rnorm(N,mean=0,sd=0.5)
Y2 <- Y0 + rnorm(N,mean=0,sd=0.5)
indx <- Y1 > 1
mean(Y1[indx])
#1.685
sd(Y1[indx])
#0.6007802
mean(Y2[indx])
#1.357769 # a decrease toward the population mean = 0
sd(Y2[indx])
#0.8145581 # an increase toward the population standard deviation = sqrt(1.25)

正如预期的那样。

为了使问题更明显,我们可以使用最优秀的学生来做T1第三T2个测量T3,比如

Y3 <- Y0 + rnorm(N,mean=0,sd=0.5)
indx2 <- Y2[indx]>1
mean(Y3[indx2])
#-0.02015669
sd(Y3[indx2])
#1.123317

更接近人口参数。

在效果大小的背景下,我没有针对均值回归的具体参考,但这种现象在许多资源中都有广泛的介绍。我不明白为什么在效应大小的背景下回归均值会有所不同。维基百科页面非常有用,并且有很多参考资料。Stigler (2002) 有一个有趣且对大多数读者来说非常容易理解的章节。

斯蒂格勒,SM(2002 年)。表上的统计数据。统计概念和方法的理论。哈佛大学出版社。