考虑一个问卷调查,我们向某人询问他们的性取向。为简单起见,这五个选项是:
- 异性
- 同性恋
- 双性恋
- 其他
- '不想说'
假设我们询问人口。除了他们的性取向外,我们不收集关于他们的其他信息。
我们有理由怀疑“宁愿不说”不是随意遗漏的。我们认为,对于同性恋者、双性恋者和其他人来说,选择“宁愿不说”的概率会更高。
因此,如果我们去掉“宁愿不说”,我们将报告我们知道有偏差的人口子集。
我们宁愿报告包括“不愿说”在内的数据,并结合我们对它们如何分布的不确定性。
例如:
- 异性恋 - 60%
- 同性恋 - 10%
- 双性恋 - 10%
- 其他 - 10%
- “不想说” - 10%
理论上(虽然不太可能),每一个“不想说”的人都可能是异性恋。所以我们知道,异性恋在人口中的比例必须在 60-70% 之间。
但是,我们可以做得更好并报告某种置信区间吗?我能想到的只是为“不想说”创建一个先验概率分布,并从中创建一个可信的区间。