机器算法验证 - 在敏感问卷中管理“不愿说” - 吾爱随笔录

机器算法验证置信区间民意调查缺失数据

2022-04-06 13:22:54

考虑一个问卷调查，我们向某人询问他们的性取向。为简单起见，这五个选项是：

假设我们询问人口。除了他们的性取向外，我们不收集关于他们的其他信息。

我们有理由怀疑“宁愿不说”不是随意遗漏的。我们认为，对于同性恋者、双性恋者和其他人来说，选择“宁愿不说”的概率会更高。

因此，如果我们去掉“宁愿不说”，我们将报告我们知道有偏差的人口子集。

我们宁愿报告包括“不愿说”在内的数据，并结合我们对它们如何分布的不确定性。

例如：

理论上（虽然不太可能），每一个“不想说”的人都可能是异性恋。所以我们知道，异性恋在人口中的比例必须在 60-70% 之间。

但是，我们可以做得更好并报告某种置信区间吗？我能想到的只是为“不想说”创建一个先验概率分布，并从中创建一个可信的区间。

3个回答

回答您的具体技术问题 - 部分识别分布的推理理论已在Charles Manski 的著作中得到发展。在您的示例中，置信区间将为（60% 减去 1.96 倍任何标准误差对应于 60% 假设，70% 加上 1.96 倍任何标准误差对应于 70% 假设）。

您可以在统计上做一些不同的事情，并将“不想说”视为缺失数据。然后，您可以根据其他协变量（例如行为和态度（例如，对宗教）等）来估算答案（更好的是，使用多重估算）。

最后，要从根源上纠正问题，您需要以不同的方式设计仪器。他们说没有敏感问题，但有些问题有敏感答案。“异性恋”的答案不是特别敏感，但非直接的答案是。我不是问卷设计者，我不能指导你很远，但是有很多资源，你知道，从20 世纪他们曾经拥有的装订书籍到MOOCs。

在我看来，你不能从这里到达那里。如果不愿意说的很少，您可以在没有太大偏见的情况下省略它们。但是，如果您在该类别中有很多（例如 5% 或更多），那么我认为您需要不同的设计。就像......甚至不要问他们是否“不想说”！

有一些方法可以提出敏感问题。在一种方法中，人们被告知真实回答或撒谎，这取决于一些随机过程（对面试官隐藏）指示他们。使用已知的谎言概率，您可以在不知道任何个人的实际特征的情况下推断具有特定特征的比例。这适用于二进制问题。

如果你有关于“宁愿不说”的先验信息，我喜欢你在这方面进行贝叶斯的想法。

（添加一个统计答案补充我在顶部的政治评论）

我们有理由怀疑“宁愿不说”不是随意遗漏的。我们认为，对于同性恋者、双性恋者和其他人来说，选择“宁愿不说”的概率会更高

在这里，人们希望以一种统计上正确和重要的方式减少对其他类别的“宁愿不说”的答案。

这在以下条件下是正确的：

1）其余选项是样本空间的独立和基本事件

2）其余选项完全（并且具有代表性）划分样本空间

3）其余选项的先验概率可以独立推断

然后，人们确实可以使用答案数据校准减少（在统计显着范围内）将“宁愿不说”答案（或其他相同类型）减少到基本选项（分区）

对于给出的示例问题（以及评论中给出的类似示例），情况并非如此。如果坚持这一点，就有效地认可了“有谎言、大谎言和统计数据”的老生常谈。

来自维基百科统计插补

[M] 大多数统计包默认丢弃任何具有缺失值的案例，这可能会引入偏差或影响结果的代表性

我宁愿不接受这样的问题，无论它们是如何销售的。让我再举一个类似的例子，使上一段更明确：

如果你为伊拉克战争起草：

a) 去前线

b) 回到后排

c) 转到医护人员

d) 宁愿不回答。

最好不要接受这些问卷！

其它你可能感兴趣的问题