引导对总体加权的分层样本 - 在引导期间重新加权?

机器算法验证 r 引导程序 民意调查 加权抽样 分层
2022-04-06 06:03:03

我正在使用 R 提供估计人口总数的引导程序(百分位数和 t 方法),使用来自复杂调查的数据。它是按人口(海关信息中已知的游客人数)加权的游客支出分层调查。我想要各种旅游类型组合(例如“澳大利亚商务旅客”)的总支出的置信区间。这些旅游特征是后分层加权方案的一部分,而不是原始分层。分层是通过采访发生的起飞航班。权重非常复杂,绝对不独立于感兴趣的变量。

我的程序是产生分层重采样;从原始样本中获取此样本权重中的案例并按比例放大/缩小,以便它们再次添加到正确的总体总数中;并计算我的统计数据。重复 r 次。如果我不在中间进行重新加权程序,我的自举估计平均显着高于原始样本的估计,因此毫无用处。我的重新加权程序并没有完全复制原始的分层后加权(它是一个更简单的版本),但经过校准以针对游客的居住国、访问目的和年龄的组合产生相同的边际人口总数。

我已经在 R 中编写了代码来执行此操作,但我对是否存在可以比较我的结果的现有函数感兴趣。我已经查看了引导包和调查包,但找不到任何东西。虽然 boot 允许从分层样本中进行引导,但我看不到一种方法来对每个重复重采样的总体进行重新加权。我的第一个问题是 - 任何指向 R 中预建函数的指针,作为其引导程序的一部分,它是否会重新加权人口?

在我对文献的粗略检查中,我也没有找到关于这个问题的任何东西。但是,对于按人口加权的调查来说,这一定是一个共同的挑战。我的第二个问题是——在文献中(不仅仅是在 R 上)关于在引导过程中重新加权过程的优点或其他方面的讨论的任何指针?

1个回答

在 R 中,我会告诉您查看调查包中与“bootweights”相关的功能是否适合您。但是由于您已经查看了该软件包,我认为您不会找到很多替代方案……几周前我还寻找了类似的东西并最终实现了我自己的代码。

对于一般自举和调查权重的讨论,您可以在本演示文稿中找到一些参考资料,其中还包含对 STATA 中复杂调查设计的自举程序实施的参考。