抽样集群和抽样层之间的差异是概念上的、方法上的,还是两者都没有或两者兼而有之?

机器算法验证 分层 调查抽样 集群样本
2022-04-09 23:15:02

我对抽样层和抽样集群之间的区别很模糊。两者似乎都针对旨在创建组间/组内(层,集群)变化的有用估计的设计,特别是,由于某些共享的组定义,似乎是由同质性驱动的。

方法论的区别是什么?
如果他们明确地解决(i)分层抽样和整群抽样的目的是什么,以及(ii)它们的相似之处和区别,我会发现我的这部分问题的答案最有价值。

概念上的区别是什么?
由于我是一名流行病学家,我会发现我的这部分问题的答案是最有价值的,如果以人口概念的实质性理论来表达,作为一群共享多个重叠背景的个体,这些背景的历史重叠例如,对于整群抽样和分层意味着

  • 变量类别中的表示?(即有效和可靠的估计。)
  • 变量类别之间不公平的表征。
  • 变量类别是推理的目标吗?
  • 撇开异质性或同质性问题不谈,是否会排除使用分类变量?
  • 什么情况会导致研究设计者说“你知道吗?我们需要一个额外的变量来对样本/分层进行聚类。

编辑 2020 年 7 月 20 日:我觉得迄今为止的所有四个答案都解决了方法问题,只有一个解决了概念问题(并且通过说它们没有进入区别来做到这一点)。我会找到解决我的问题的方法和概念部分最令人满意的答案。

4个回答

大多数美国健康调查(NHIS及其孩子MEPSNHANESNSDUH)都是分层整群调查。公共使用数据集的常见表示是两阶段设计,在第一阶段的抽样(对集群进行抽样)有约 50 个层,通常每层有两个集群,在第二阶段对人群进行抽样。如果您愿意,这是一种六年级阅读水平的科学解释。

为什么以及如何对这些调查进行分层嗯,卫生专业人员知道不同环境中的人有不同的医疗保健需求和医疗保健结果。城市不同于郊区,不同于农村,因此城市化水平/人口密度是这些的分层变量。

为什么以及如何对这些调查进行聚类好吧,集群样本要么是衡量绝望的指标(无法通过其他方式接触到人口),要么只是一种节省成本的方式(在面对面的调查中,你宁愿付钱让采访者与他们交谈)人,而不是坐在车里/火车上/从一个面试到下一个面试......所以面试官应该有 5-10-15 分钟的旅行而不是 2 小时的约会之间的旅行)。在大规模的美国健康调查中,两者都有:没有一个集中列出该国所有人的名单(尽管可以将他们的手放在所有地址的名单上,有点)。人口和健康调查等国际调查中,可能没有足够的政府数据来建立像美国那样的数据收集;您可能需要处理的最好的事情是在后者中将行政划分为省、区和市/镇/村,充其量是对人口规模的粗略估计。因此,您最终会对这些地区和地区内的定居点进行抽样,然后派调查员对住宅进行计数,然后从由此创建的列表中抽样。

当然,在其他情况下,聚类样本非常有意义——即当人口绝对自然地以分层方式组织时,比如学区/学校/班级-教师/学生。集群是由社会过程定义的,而不是由统计学家的笔。在许多这样的分层人口调查中,每个层次的数据,以及教师或校长级别变量对学生级别变量影响的多层次建模也很感兴趣。

在OP提出的问题中,我只能回答这个(其他是定性研究问题,而不是定量研究问题):

  • 什么情况会导致研究设计者说“你知道吗?我们需要一个额外的变量来聚类样本/分层。”

您只能对抽样框架上可用的变量进行分层(抽样框架 = 您从中抽取样本的实体列表;这将是 DHS 调查示例中的地区列表,或所有 80,000 个人口普查的列表以美国为例,用于大规模健康调查;这也可能是一个隐含的列表,例如在随机数字拨号中生成随机电话号码的方式,这是BRFSS所做的)。

至于要在哪个变量上进行聚类,要么是自然层次结构,要么是成本精确度的权衡:如果你的面试官要覆盖的区域更小,人口可能会更加同质,所以你不会学习来自相同数量的观察。

PS集群和阶层之间的区别是很多人都在努力解决的问题。你不是一个人。

PPS 与您可能听到的(包括一些已发布的答案)相反,在美国,您不能按人的种族/民族、性别/性别或年龄进行分层,至少在一般人口调查中是这样。如果您有这些领域的医院患者名单,那么您当然可以。但是没有一般的抽样框架(可能缺少人口普查局主地址文件)来列出人的姓名、地址和这些人口特征。然而,北欧国家有人口登记册,可以找到这些信息;瑞典人和美国人在专业会议上的对话有时会在平行宇宙中进行,几乎没有吸引力。)确实发生的是,当你按地理进行分层时, 并且少数族裔被严重隔离,您可以选择 90%+ 黑人/非裔美国人或 80%+ 西班牙裔的地区,这样您就可以很好地预测您的样本最终将有多少人在这些群体中那天。

当您在层内具有同质性和层间具有异质性时,分层抽样是最有效的(就估计的方差而言)。如果您感兴趣的变量是一些社会问题,请考虑美国各州。德州人彼此非常相似,但与纽约人(他们又彼此相似)大不相同。如果是这种情况,那么分层抽样可能比简单随机抽样更有效,因为您需要更少的样本来获得完全代表的总体样本。

如果在稀有人群(即性少数群体)的情况下,如果该人群在感兴趣的变量方面表现同质,并且与不属于该稀有人群的成员不同,那么这可能会导致您的估计出现很大差异取决于该组的成员是否在您的样本中。对该组进行分层可确保该组的成员在样本中,从而在相同样本量下实现较小的抽样方差。

考虑在一个拥有许多小企业和一家沃尔玛的城镇中估算业务收入的情况。沃尔玛是否包含在您的样本中会导致您的估计出现巨大差异。根据员工人数等因素进行分层,并可能将沃尔玛包括在抽样百分比为 100% 的自己的分层中(这是一个全取分层),这将减少您估计的差异。

从概念上讲,分层抽样就是减少估计的方差。它允许与具有更少样本的 SRS 相同的方差或相同数量的样本的更少方差。什么会阻止变量被用于分层?如果它对您的估计方差没有影响。也就是说,如果它没有进一步增加层内的同质性。例如,如果您感兴趣的变量是学生表现,则对眼睛颜色进行分层。它可能不会伤害您的阶层,但会不必要地增加您的调查设计的复杂性。

当您在层内具有异质性和层间具有同质性时,整群抽样是最有效的(同样,在方差方面的效率)。想想特定州的学校,感兴趣的变量是学生身高。聚类抽样旨在将每个聚类设计为基本上是您的人口的迷你版本。考虑到这一点的主要好处是实用的。

例如,您不需要一个完整的框架,即如果您想对学生进行抽样但没有学生的联系信息,您可以改为抽样学校,让他们将调查问卷提供给所有学生。它还节省了实际管理调查的成本。如果您的调查必须亲自完成,那么开车四处走动并使用 SRS 随机选择调查人员可能会很昂贵。如果您在考虑地理邻近性的情况下选择集群,这将变得更便宜,并且实际上可以让您能够调查更多的人(这可能导致比 SRS 更少的差异)。

选择集群较少是因为它们能够减少估计的方差,而更多的是因为它们能够帮助调查管理和降低成本,但话虽如此,除了实际原因之外,集群抽样的方差可能比 SRS 小如果存在负的类内相关性,则使用相同的样本量。

以下是调查研究中通常使用这些术语的方式。

分层抽样是指您获取整个样本帧并根据您已经知道的某些标准将其预先划分为多个“桶”。因此,如果您正在对美国人进行抽样,并且您已经知道他们的种族,您可以将样本分为白人、黑人、西班牙裔和其他人。这些桶就是“地层”。然后,不是从整个人口中抽取一个大的随机样本,而是从每个桶中抽取一个随机样本。这样做有很多好处,但最大的好处是,如果您愿意,您可以从较小的桶中抽取更大 % 的随机样本,以确保您在最终样本中从该组中获得足够多的受访者。因此,如果我从每个桶中抽取 500 个样本,我将会有更多的黑人、西班牙裔和“其他人” 在我的样本中,如果我只是从整个人口中抽取一个随机样本,这可能很重要,如果我想确保我有足够的 N 用于这些子组,这可能很重要。当然,我需要计算设计权重以调整我在样本中有意引入的偏差。但这很容易,因为我确切地知道我引入了什么样的偏见。

相比之下,集群是“两阶段”抽样设计的一部分,首先您抽取集群的随机样本,然后在抽样集群中抽取随机观察样本。因此,如果我想研究住院病人,我可能会首先制作一个美国所有医院的样本框架。然后我会随机抽取医院样本。然后,在我抽样的医院中,我随机抽取患者样本进行研究。

从统计的角度来看,主要区别在于,在分层抽样中,您只需抽取一个随机样本,并且框架中的每个人都有非零的选择概率。当然,某些阶层的人可能比其他人有更高的选择概率,但这就是设计权重的来源。

在集群抽样中,您抽取两个随机样本——一个集群样本和另一个人样本(在抽样集群中)。在抽样的第二阶段,很多人(那些在非抽样集群中的人)被选中的机会为零。这时您可能需要考虑 HLM/多级建模来解释观察结果嵌套在集群中的事实,这些集群本身只是总人口的一个样本。

补充:整群抽样的一个概念动机是,它通常是获得所需样本的唯一可行方法。没有一个国家的所有住院患者(或小学生)的“列表”可以用来随机抽取样本。但是有一个医院(或学校)列表,您可以将其用作样本框架,并且对于所选的每家医院,都有该医院内的患者列表。所以通常这是唯一可行的方法。

据我了解,当总体同质且集群均值之间的差异很小且集群内的方差很大时,集群抽样是最好的。目的是使用集群作为整个人口的代理。好处是实用的。例如,选择一两所学校并从该学校对学生进行抽样比从许多学校抽样一两个学生更容易。所以你可以通过简单随机抽样选择少数学校,然后去那些学校用简单随机抽样从他们中选择学生。这当然要求学校基本相同,每所学校的学生选择范围广,才能代表整个人口。

另一方面,当总体异质,层的均值差异较大,层内的方差较小时,分层抽样是最好的。目的是确保您不会错过人口中的差异。把它留给随机机会和简单的随机抽样,你可能不会抽样小但重要的群体——例如农村学校的代表性可能不足。因此,您可以通过创建一个捕获总体分层的方案来确保该层在样本中得到体现。例如,您知道您的最终样本必须是 95% 的城市学校和 5% 的农村学校。然后在这些层中进行简单的随机抽样,直到您获得所需的部分来构成最终样本。如果人口中确实存在很大差异,与简单随机抽样相比,分层样本应导致更精确的估计。