机器算法验证 - 建议以 20% 的响应率分析整个样本框架的调查 - 吾爱随笔录

建议以 20% 的响应率分析整个样本框架的调查

机器算法验证方差采样民意调查人口普查不回应

2022-04-13 13:29:49

我们调查了特定行业的所有 10,000 名专业人士。该行业受到高度监管，因此我们为感兴趣的人群中的每个人提供联系信息。我们试图联系 100% 的人口。我们现在有一个包含 2,000 条回复的数据集，因为 20% 的人口同意完成调查。在进行这项调查时，根本没有抽样概率，也没有聚类。

按居住州划分时，响应率存在很大差异。由于状态变化在这个行业中很重要，我们计划计算这个最终数据集的权重，以便我们运行的任何统计数据都可以推广到整体人口，而不是 20% 的回应者。我相信权重应该被视为分层后的权重，但我不确定。

我不认为这是一个非常复杂的数据集来分析，但我不确定它是否是某种特殊情况——它不涉及任何采样，但同时它不是整个宇宙.

我将不胜感激任何编码技巧（使用任何统计语言）来推荐对这种结构的数据最有意义的调查分析设置。

如果我不得不猜测，这是我将使用的 R 代码：

# start with data set `x` and add a column of five, since 20% responded
x$wgt <- 5
# give everyone in the data set a weight of five

# provide only a column of 5's to the `svydesign` command
y <- svydesign( ~1 , data = x , weights = ~ wgt )

# create a table with the intended joint distribution, here with just two example states
pop.types <- data.frame( state = c( "state 1" , "state 2" ) , Freq = c( 5000 , 5000 ) )

# create the post-stratified survey design
z <- postStratify( y , ~ state , pop.types )

# have fun running statistics and confidence intervals
svymean( ~ variable.to.analyze , z )
confint( svymean( ~ variable.to.analyze , z ) )

ucla 在 stata 中有一个分层后教程，这让我觉得像这样创建 svyset 线可能更聪明——

gen total_pop = 10000
gen pststr_wgt = .
replace pststr_wgt = 5000 if state == "state 1":state
replace pststr_wgt = 5000 if state == "state 2":state
svyset _n , fpc( total_pop ) poststrata( state ) postweight( pststr_wgt )

谢谢！！

2个回答

可以肯定的是，不答复是调查中经常出现的问题。对这些数据的任何使用都需要包含一些关于不答复率的语言，并谨慎判断结果。

至于您关于 R 使用的问题，代码看起来不错。作为细节，我不会在 svydesign 部分使用权重，而是使用 fpc=~rep(10000,10000)。如果你提供权重，你不会得到有限的总体修正——只是一个加权估计。

后分层并不是所有生活问题的答案。它可以减少估计的方差，但不如从一开始就分层。当然，如果感兴趣的变量与分层后变量无关，并且与导致无响应的任何原因相关，它对您毫无用处。

我认为在这种情况下，一个起点是查看您的响应者中的状态分布是否是您的专业组的典型。如果是，则不需要进行后分层。如果你知道你的人的年龄和性别，你也可以测试这些。

如果您正在计算后分层组的均值，则后分层实际上没有任何作用。（例如：我对性别进行后分层，然后计算男性和女性的均值）。这是由于 Thomas Lumley 的设计决定，他在他的书《复杂调查：使用 R 分析指南》的第 137 页上对此进行了讨论。

我不认为你的情况像@whuber 认为的那样可怕，也不能与 1936 年总统大选期间的文学文摘混乱相比。LD 从有利于共和党人的人口框架中抽取样本。即使响应率很高，他们也会遇到问题。你的人口框架是完整的。

请记住，您实际上确实从 10,000 人中的 2,000 人那里收到了信息。你看到了你所看到的。丢失的 8,000 必须与 2,000 有很大不同，才能使您的估计平均值从当前位置大幅偏移。它有多糟糕？我说，做一些敏感性测试并公布你的结果。

“没有抽样概率”是什么意思？所有单位是否具有相同的包含概率（简单随机抽样）？还是因为您试图联系您的人口中的每个单位（在这种情况下，所有初始权重都等于 1）？

无论如何，您的结果可以清楚地使用（即使您的响应率有点低，对非常小的子群体的估计可能不是很精确）！只要您在估计中考虑到无响应，您就可以了。

分层后是这样做的一种方法（然后您的分层后变量必须与不响应概率高度相关），但我建议使用同源响应组，我在我写的一篇文章中详细解释了一点前段时间。

PS：正如@Placidia 提到的，1936 年大选的情况确实不同：偏差来自抽样框架中的缺陷，它不是一种无回应偏差。

其它你可能感兴趣的问题

上一篇当自变量是预测百分比结果的百分比时，使用什么回归模型？下一篇具有许多二元自变量的模型的逻辑回归假设