引导具有不等选择概率的样本

机器算法验证 引导程序 重采样 加权抽样
2022-03-22 14:27:24

我想“炸毁”一个带有替换的样本,我知道每个项目在选择过程中使用自举和应用逆概率加权是否有效(如在 Horvitz-Thompson 估计器中:用对每个项目进行加权),还是有任何陷阱?在谷歌上快速搜索表明这还没有被充分调查,R 中的包允许权重,但没有评论它们应该来自哪里。πii1/πiboot

除其他外,“炸毁”的目的是能够以均匀的概率从炸毁的人口中重新抽样。

2个回答

这个问题你找到满意的答案了吗?

我最近发现了这个参考:

http://www.wseas.us/e-library/conferences/2009/hangzhou/ACACOS/ACACOS21.pdf

但我很确定这个问题之前一定已经调查过了。虽然很容易证明使用观察权重的合理性(实际上,通过加权观察,您希望使用对未知分布函数 F 的更好估计),但我想找到相关背景。

您可以通过简单的模拟验证引导包中的“权重”参数是否作为重要性权重运行。

example <- data.frame(
   meas=c(1,1,5,8,10),
   wts=c(10,10,3,2,1)
)

未加权平均值:

mean(example$meas)
# output = 5

加权平均数:

sum(example$meas * example$wts) / sum(example$wts)
# output = 2.346154

现在使用引导程序执行此操作:

my.avg <- function(data, indices) {
   d <- data[indices,]
   return(mean(d$meas))
}

未加权自举均值:

mean(boot(example, my.avg, 1000)$t)
# output = 4.8908

加权自举平均值:

mean(boot(example, my.avg, 1000, weights=example$wts)$t)
# output = 2.3712