建议以 20% 的响应率分析整个样本框架的调查

机器算法验证 方差 采样 民意调查 人口普查 不回应
2022-04-13 13:29:49

我们调查了特定行业的所有 10,000 名专业人士。该行业受到高度监管,因此我们为感兴趣的人群中的每个人提供联系信息。我们试图联系 100% 的人口。我们现在有一个包含 2,000 条回复的数据集,因为 20% 的人口同意完成调查。在进行这项调查时,根本没有抽样概率,也没有聚类。

按居住州划分时,响应率存在很大差异。由于状态变化在这个行业中很重要,我们计划计算这个最终数据集的权重,以便我们运行的任何统计数据都可以推广到整体人口,而不是 20% 的回应者。我相信权重应该被视为分层后的权重,但我不确定。

我不认为这是一个非常复杂的数据集来分析,但我不确定它是否是某种特殊情况——它不涉及任何采样,但同时它不是整个宇宙.

我将不胜感激任何编码技巧(使用任何统计语言)来推荐对这种结构的数据最有意义的调查分析设置。

如果我不得不猜测,这是我将使用的 R 代码:

# start with data set `x` and add a column of five, since 20% responded
x$wgt <- 5
# give everyone in the data set a weight of five

# provide only a column of 5's to the `svydesign` command
y <- svydesign( ~1 , data = x , weights = ~ wgt )

# create a table with the intended joint distribution, here with just two example states
pop.types <- data.frame( state = c( "state 1" , "state 2" ) , Freq = c( 5000 , 5000 ) )

# create the post-stratified survey design
z <- postStratify( y , ~ state , pop.types )

# have fun running statistics and confidence intervals
svymean( ~ variable.to.analyze , z )
confint( svymean( ~ variable.to.analyze , z ) )

ucla 在 stata 中有一个分层后教程,这让我觉得像这样创建 svyset 线可能更聪明——

gen total_pop = 10000
gen pststr_wgt = .
replace pststr_wgt = 5000 if state == "state 1":state
replace pststr_wgt = 5000 if state == "state 2":state
svyset _n , fpc( total_pop ) poststrata( state ) postweight( pststr_wgt )

谢谢!!

2个回答

可以肯定的是,不答复是调查中经常出现的问题。对这些数据的任何使用都需要包含一些关于不答复率的语言,并谨慎判断结果。

至于您关于 R 使用的问题,代码看起来不错。作为细节,我不会在 svydesign 部分使用权重,而是使用 fpc=~rep(10000,10000)。如果你提供权重,你不会得到有限的总体修正——只是一个加权估计。

后分层并不是所有生活问题的答案。它可以减少估计的方差,但不如从一开始就分层。当然,如果感兴趣的变量与分层后变量无关,并且与导致无响应的任何原因相关,它对您毫无用处。

我认为在这种情况下,一个起点是查看您的响应者中的状态分布是否是您的专业组的典型。如果是,则不需要进行后分层。如果你知道你的人的年龄和性别,你也可以测试这些。

如果您正在计算后分层组的均值,则后分层实际上没有任何作用。(例如:我对性别进行后分层,然后计算男性和女性的均值)。这是由于 Thomas Lumley 的设计决定,他在他的书《复杂调查:使用 R 分析指南》的第 137 页上对此进行了讨论。

我不认为你的情况像@whuber 认为的那样可怕,也不能与 1936 年总统大选期间的文学文摘混乱相比。LD 从有利于共和党人的人口框架中抽取样本。即使响应率很高,他们也会遇到问题。你的人口框架是完整的。

请记住,您实际上确实从 10,000 人中的 2,000 人那里收到了信息。你看到了你所看到的。丢失的 8,000 必须与 2,000 有很大不同,才能使您的估计平均值从当前位置大幅偏移。它有多糟糕?我说,做一些敏感性测试并公布你的结果。

“没有抽样概率”是什么意思?所有单位是否具有相同的包含概率(简单随机抽样)?还是因为您试图联系您的人口中的每个单位(在这种情况下,所有初始权重都等于 1)?

无论如何,您的结果可以清楚地使用(即使您的响应率有点低,对非常小的子群体的估计可能不是很精确)!只要您在估计中考虑到无响应,您就可以了。

分层后是这样做的一种方法(然后您的分层后变量必须与不响应概率高度相关),但我建议使用同源响应组,我在我写的一篇文章中详细解释了一点前段时间

PS:正如@Placidia 提到的,1936 年大选的情况确实不同:偏差来自抽样框架中的缺陷,它不是一种无回应偏差。