在调查中重新抽样以解决缺失数据

机器算法验证 采样 推理 重采样
2022-03-21 20:59:50

假设我有如下所示的调查回复:

N=60000, Population
n=1000, Total sample
n=800, Users of Company X
n=200, Randomly chosen from 800 and asked about their Future Use of Company X 
n=100, Planning to use Company X less in the future

800 名用户中只有 200 名被问及未来使用的原因是因为他们也被问及其他公司。如果他们被问及他们未来对他们使用的所有公司的使用情况,那么调查将太长。

我的目标是了解未来使用的流程。例如,在未来较少使用 X 公司的个人中,他们计划更多地使用哪些其他公司。但是,以 100 个样本为例,从同一用户对其他公司的其他公司的响应不足以获得可用比例。

我可以从 X 公司更可靠的用户样本中以一定程度的准确度推断业务流吗?

更新:我想,我可能指的是引导。

2个回答

您的问题实际上超出了我的薪酬等级,但我可以建议先看一下R 调查包,它可能会实施您用来回答问题的一些例程。

  • 比例标准误差的标准公式将是合适的。关于您关于“n=100 样本”计划将来使用哪些公司的问题,这些标准误差将基于 n = 100。如果这产生的标准误差太大而您不喜欢,那么您需要增加你的样本量。
  • 在某些情况下,您可以通过对您感兴趣的人群子集进行更有针对性的抽样来增加您的有效样本量(即,使用 X 公司,但计划在未来减少使用 X 公司)。