大多数美国健康调查(NHIS及其孩子MEPS、NHANES、NSDUH)都是分层整群调查。公共使用数据集的常见表示是两阶段设计,在第一阶段的抽样(对集群进行抽样)有约 50 个层,通常每层有两个集群,在第二阶段对人群进行抽样。如果您愿意,这是一种六年级阅读水平的科学解释。
为什么以及如何对这些调查进行分层?嗯,卫生专业人员知道不同环境中的人有不同的医疗保健需求和医疗保健结果。城市不同于郊区,不同于农村,因此城市化水平/人口密度是这些的分层变量。
为什么以及如何对这些调查进行聚类?好吧,集群样本要么是衡量绝望的指标(无法通过其他方式接触到人口),要么只是一种节省成本的方式(在面对面的调查中,你宁愿付钱让采访者与他们交谈)人,而不是坐在车里/火车上/从一个面试到下一个面试......所以面试官应该有 5-10-15 分钟的旅行而不是 2 小时的约会之间的旅行)。在大规模的美国健康调查中,两者都有:没有一个集中列出该国所有人的名单(尽管可以将他们的手放在所有地址的名单上,有点)。在人口和健康调查等国际调查中,可能没有足够的政府数据来建立像美国那样的数据收集;您可能需要处理的最好的事情是在后者中将行政划分为省、区和市/镇/村,充其量是对人口规模的粗略估计。因此,您最终会对这些地区和地区内的定居点进行抽样,然后派调查员对住宅进行计数,然后从由此创建的列表中抽样。
当然,在其他情况下,聚类样本非常有意义——即当人口绝对自然地以分层方式组织时,比如学区/学校/班级-教师/学生。集群是由社会过程定义的,而不是由统计学家的笔。在许多这样的分层人口调查中,每个层次的数据,以及教师或校长级别变量对学生级别变量影响的多层次建模也很感兴趣。
在OP提出的问题中,我只能回答这个(其他是定性研究问题,而不是定量研究问题):
- 什么情况会导致研究设计者说“你知道吗?我们需要一个额外的变量来聚类样本/分层。”
您只能对抽样框架上可用的变量进行分层(抽样框架 = 您从中抽取样本的实体列表;这将是 DHS 调查示例中的地区列表,或所有 80,000 个人口普查的列表以美国为例,用于大规模健康调查;这也可能是一个隐含的列表,例如在随机数字拨号中生成随机电话号码的方式,这是BRFSS所做的)。
至于要在哪个变量上进行聚类,要么是自然层次结构,要么是成本精确度的权衡:如果你的面试官要覆盖的区域更小,人口可能会更加同质,所以你不会学习来自相同数量的观察。
PS集群和阶层之间的区别是很多人都在努力解决的问题。你不是一个人。
PPS 与您可能听到的(包括一些已发布的答案)相反,在美国,您不能按人的种族/民族、性别/性别或年龄进行分层,至少在一般人口调查中是这样。如果您有这些领域的医院患者名单,那么您当然可以。但是没有一般的抽样框架(可能缺少人口普查局主地址文件)来列出人的姓名、地址和这些人口特征。然而,北欧国家有人口登记册,可以找到这些信息;瑞典人和美国人在专业会议上的对话有时会在平行宇宙中进行,几乎没有吸引力。)确实发生的是,当你按地理进行分层时, 并且少数族裔被严重隔离,您可以选择 90%+ 黑人/非裔美国人或 80%+ 西班牙裔的地区,这样您就可以很好地预测您的样本最终将有多少人在这些群体中那天。