如果可能,请给我数学解释。同样在 Kothari 2004 书中,它说:
集群内的“n”个观察中的信息也没有“n”个随机抽取的观察中的信息多。
你也能给我这个数学解释吗?
我的第二个问题是为什么简单随机抽样比整群抽样更可取?我对前者在随机性方面更好的数学证明很感兴趣。
如果可能,请给我数学解释。同样在 Kothari 2004 书中,它说:
集群内的“n”个观察中的信息也没有“n”个随机抽取的观察中的信息多。
你也能给我这个数学解释吗?
我的第二个问题是为什么简单随机抽样比整群抽样更可取?我对前者在随机性方面更好的数学证明很感兴趣。
考虑一个典型的聚类情况——个人访谈住户调查,其中主要抽样单位是社区或街道,出于后勤和成本原因(一个国家甚至一个城市的简单随机家庭样本很少可行)。显然,如果在整个人口中随机抽取同一条街道上的样本主体,则其信息与相同数量的信息不同,因为同一条街道上的样本主体可能有一系列共同的社会经济变量(支付租金/初学者的房地产价格,更不用说微妙的文化问题)。
任何关于样本设计或调查的文本都会有数学演示。仅出于实际和逻辑原因进行集群抽样。
因为如果您对集群进行采样,您只会获得有关集群内样本的信息。集群内的样本比随机样本更相似,否则它们不会被放在同一个集群中。
假设是,当您对数据进行聚类时,聚类由一个或多个协变量驱动(可能会或可能不会被观察到)。因此,如果您的数据碰巧按因子 A 进行聚类,并且您仅在一个集群内进行抽样,您将不会获得有关因子 A 影响的任何信息,因为集群中的所有样本对于该因子都将具有相同的水平。这个解释有点简化,因为它假设干净的集群并假设我们知道是什么驱动它,但它应该说明这一点。
如果您可以了解整群抽样的数学知识,只需按照对整群调查总数方差的解释即可。请参阅Lohr 的第 2 版的egp 174 (打开亚马逊内部并输入“icc”进行搜索;第 174 页上的第一个参考为您提供了平衡情况下整群抽样的方差分析表)。亚马逊没有给出的参考公式(5.7)是
当 ICC<0 时,可以构建种群(或者更确切地说是它们的集群结构)的人工示例,因此集群样本比 SRS 更有效。例如,聚集为的人口将具有以下奇怪的属性:
y = c(1, 6, 8, 3, 5, 7, 2, 4, 9)
i = rep(1:3, each=3)
anova(lm(y~as.factor(i)))
所以我们看到这个总体(或者更确切地说是它被聚类的方式)产生,因此大小为的集群样本的总方差将等于 0,而根据您将在亚马逊上看到的公式的 SRS 总方差将不为零:
N = length(y)
n = 3
V_SRS = N*N*(1-n/N)*sd(y)*sd(y)/n
诀窍是每个集群的平均值等于 5,即总体平均值(或者更确切地说,每个集群的总数等于 15,因为我们谈论的是集群总数之间的方差;它会在不平衡的情况下产生影响) ,因此集群之间确实没有可变性。
我建议你通过推导集群方差公式,以及上面的计算,一步一步,看看它们是如何工作的,并尝试为上面提出两个不同的集群结构,y以便集群样本 (i) 的效率将低于 SRS(简单),并且 (ii) 具有非零 MSB,与我上面的示例不同,但仍然比 SRS(困难)更有效。