“平均”方差

机器算法验证 方差 意思是
2022-03-23 00:17:47

我需要在方差列表中获得某种“平均值”,但无法提出合理的解决方案。在这个线程中有一个关于毕达哥拉斯三种方法(算术、几何和谐波)之间差异的有趣讨论但是,我仍然认为他们中的任何一个都不是一个好的候选人。有什么建议么?

PS 一些上下文 - 这些方差是来自受试者的样本方差,每个受试者都经历了相同的实验设计,样本量大致相同。换句话说,有抽样方差 , , ...,,对应于这主题。已经在人群层面进行了荟萃分析。我需要获得某种“平均”或“汇总”样本方差的原因是我想在元分析后用它来计算诸如ICC之类的指标。nknσ12σ22σn2n

PPS 为了使讨论更具体,让我用 R 中的以下示例来解释这个问题:

library(metafor)
dat <- get(data(dat.konstantopoulos2011))
dat$district <- as.factor(dat$district)
dat$school <- as.factor(dat$school)

在数据集中,每所学校的表现得分存在差异:

str(dat)
Classes ‘escalc’ and 'data.frame':  56 obs. of  6 variables:
 $ district: Factor w/ 11 levels "11","12","18",..: 1 1 1 1 2 2 2 2 3 3 ...
 $ school  : Factor w/ 11 levels "1","2","3","4",..: 1 2 3 4 1 2 3 4 1 2 ...
 $ year    : int  1976 1976 1976 1976 1989 1989 1989 1989 1994 1994 ...
 $ yi      : atomic  -0.18 -0.22 0.23 -0.3 0.13 -0.26 0.19 0.32 0.45 0.38 ...
 $ vi      : num  0.118 0.118 0.144 0.144 0.014 0.014 0.015 0.024 0.023 0.043 ...

假设我们使用分层或混合效应模型执行元分析:

yij=a+αi+βj+ϵij

其中,个学校和个学区的随机效应是已知高斯分布的测量误差。这个模型可以分析如下:αiβjijϵijN(0,vij)

(fm <- rma.mv(yi, vi, random = list(~1 | district, ~1 | school), data=dat)) 

为两个方差分量呈现以下方差估计:

Multivariate Meta-Analysis Model (k = 56; method: REML)
Variance Components: 

            estim    sqrt  nlvls  fixed    factor
sigma^2.1  0.0814  0.2853     11     no  district
sigma^2.2  0.0010  0.0308     11     no    school

结果中的两个方差 sigma^2.1 和 sigma^2.2 对应于两个随机效应变量(地区和学校)。

我想计算地区的 ICC,这就是为什么我想首先获得测量项的汇总方差。由于总方差为vijϵij

Var(yij)=Var(αi+βj+ϵij)=σ12+σ22+vij

我最初的(也是简单的)方法是只使用算术平均值:

σ12σ12+σ22+mean(vij)

但我不确定算术平均值在这种情况下是否合适。mean(vij)

1个回答

扩展您得到的评论,您的标题中的问题的答案已经在如何“求和”标准偏差中给出?线程,内容如下:要获得平均标准偏差,首先取方差的平均值,然后取其平方根。

从表面上看,这种方法是有效的,但它忽略了数据的层次结构。Andrew Gelman 等人在贝叶斯数据分析的第 5 章中讨论了类似的示例(另请参见此处),他们表明使用依赖于汇总估计的分层模型实际上更明智。在您的情况下受试者,观察值,我想可以假设每个受试者获得的结果之间以及每次治疗之间存在某种相似性。这已经提出了一个分层模型,对治疗和受试者具有交叉的上层效应。通过使用这样的模型,您将考虑到两种变异来源。n×knk

请注意,ICC 的现代公式实际上是根据上述类型的混合效应模型来定义它的,因此使用这种模型可以为您解决多个问题,并且通常是推荐的荟萃分析方法(但请注意,ICC 可以误导)。


关于您的编辑,如果您的模型是

yij=a+αi+βj+ϵij

然后,所以你的ICC是αiN(μα,σα2)βjN(μβ,σβ2)ϵijN(0,σϵ2)

ICCα=σα2σα2+σβ2+σϵ2

误差的平均值在任何时候都不会进入方程。和全局“噪声”的方差所占据的方差份额,即它占总方差的多少。这就是 ICC 的创建者 Ronald A. Fisher (1966) 在Statistical Methods for Research Workers中的定义:α,βϵα

(...)类内相关性将仅仅是由于同一类中的观察具有共同的原因而导致的总方差的一部分。

所以ICC公式中的分子是感兴趣效应的方差,分母是总方差。请注意,方差的平均值与总方差(方差之和)无关,所以除非我误解了某些东西,否则我看不出为什么你对平均值感兴趣。