多变量分层抽样?

机器算法验证 实验设计 分层
2022-03-25 22:57:54

我对统计数据了解不多,所以我在这里寻找一个起点。任何资源或见解都会有所帮助。

我正在进行一个电子学习实验,学生观看视频,然后完成一项测量认知负荷和用户满意度的调查,然后他们完成一个简短的评估来测试他们所学的内容。

由于学习中的预测试问题,我想按三个变量对实验组进行分层:

  1. 先前检查的结果
  2. 对课程的态度(通过调查衡量)
  3. 对电子学习的态度(通过调查衡量)

通过这样做,我可以最大限度地减少每组之间的差异。

如果我按变量 1 进行分层,我可以确保每个组有相同数量的“A”学生、“B”学生等。

但是,鉴于我要控制三个变量,我不确定如何公平地将学生分组。我可以玩弄这些组,直到我把它们大致均匀,但我想知道是否有统计方法可以对多个变量进行分层?

谢谢。

1个回答

请参阅我上面关于变量 2 和 3 是否真的可以用作分层的基础的评论(除非您所指的调查与您现在讨论的抽样方法有不同的调查,否则它们不能)。

如果您尝试根据三个分类变量选择样本,您很快就会遇到大量分层和复杂的抽样和加权问题。您需要计算三维数组的每个单元格中的总体,其中每个单元格是三个变量的特定组合;然后指定要包含在调查中的人口比例(不需要每个单元格的比例相同)。作为样本选择过程的一部分,您还需要了解这三个变量上每个潜在样本的值。

使用所有三个进行抽样的替代方法可能是仅根据您的一个变量作为分层来选择您的样本,并通过分层后加权将另外两个纳入。此外,如果您使用raking技术,您可以解决人口数组中存在如此多“单元格”的问题,同时仍确保每个变量的每个总类别的权重(即,您的三维数组中的边际总数)加起来是正确的数量,这有助于将标准误差保持在合理的范围内。

如果您正在进行后期分层(耙或其他),您仍然需要知道分类变量的总体值 - 这对于计算正确的权重至关重要。

如果我的怀疑是正确的,您并不真正知道变量 2 和 3 的总体值(需要通过调查来衡量),那么您最好的选择就是根据之前的检查结果进行分层,然后仅根据该变量计算总体权重。

我发现 Thomas Lumley 的surveyR 包使用起来相对简单,而且它具有免费的优势。我会说这个或类似的东西对于体面的调查分析是必不可少的。它有一个很好的网站和一本更好的——你可能需要拿到这本书或同等的书才能让这一切变得有意义