用于解释调查回复中的系统误差的插补

机器算法验证 数据插补
2022-03-28 05:46:37

我有一个大型调查,其中学生被问及他们母亲的教育水平等。有的跳过了,有的回答错了。我知道这一点,因为后来采访了最初受访者母亲的子样本,并问了同样的问题。(我敢肯定,母亲的回答也存在一些较小的错误。)

我的挑战是决定如何最好地利用第二个更可靠的数据源。至少我可以用它来更智能地估算丢失的数据,如果我只能依赖完整的案例的话。但是,如果我可以交叉核对数据的孩子中有 3/4 的数据与他们母亲的回答相矛盾,那么我似乎应该使用插补来创建多个数据集来捕捉那里的不确定性。[补充:我说 3/4 是为了说明一点,但现在我已经检查了数据,我不妨告诉你,接近 40% 是有差异的]

我个人将使用母亲的教育作为混合模型中的预测因子,但如果有人对其他情况有话要说,我也很想了解它们。

我很想收到粗略或具体的建议。谢谢!

更新:我暂时没有解决这个问题,虽然我很欣赏 Will 和 Conjugate_Prior 的回答,但我希望获得更具体和技术性的反馈。

下面的散点图将让您了解这两个变量在 10,000 个同时存在的案例中是如何相关的。它们嵌套在 100 多所学校中。它们的相关系数为 0.78,学生的答案-均值:5.12 sd=2.05,妈妈的答案,均值=5.02,sd=1.92 大约 15% 的情况下学生的答案缺失。

在此处输入图像描述

2个回答

首先要注意的是,您的变量是:“学生对母亲教育的评价”和“学生的母亲对学生母亲教育的评价”。分别称它们为S和M,并将未观察到的母亲教育的真实水平标记为T。

S 和 M 都有缺失值,将 M 和 S 置于插补模型中并没有错(以下面的观察为模),但在后续分析中仅使用其中一个。反过来总是不可取的。

这与其他三个问题不同:

  1. 缺失值是否意味着学生不了解或不想对他们的母亲说太多?
  2. 如何使用 S 和 M 来了解 T?
  3. 你是否有正确的缺失来允许多重插补工作?

无知和缺失

您可能对 T 感兴趣,但您不必是:教育程度的看法(通过 S,可能还有 M)或缺乏学生知识可能比 T 本身更有趣。插补对于第一个可能是明智的途径,但对于第二个可能是也可能不是。你必须做出决定。

学习 T

假设您实际上对 T 感兴趣。在没有黄金标准测量的情况下(因为您有时会怀疑 M),很难知道您如何不随意地将 S 和 M 结合起来来了解 T。另一方面,如果您是愿意在可用时将 M 视为正确,那么您可以在包含学生其他信息的分类模型中使用 S 来预测 M,然后在最终分析中使用 M 而不是 S。这里担心的是您训练的案例中的选择偏差,这导致了第三个问题:

失踪

多重插补是否可行取决于数据是完全随机缺失(MCAR)还是随机缺失(MAR)。S 是否随机丢失(MAR)?也许不是,因为学生可能会因为回答母亲缺乏教育而感到羞耻而跳过这个问题。然后单独的值决定它是否会丢失,多重插补在这里无济于事。另一方面,如果受教育程度低与调查提出并部分回答的问题(例如某些收入指标)相关,那么 MAR 可能更合理,并且多重插补有一些把握。M是随机丢失的吗?同样的考虑也适用。

最后,即使您对 T 感兴趣并采用分类方法,您仍然需要估算以适应该模型。

如果您要假设整个样本的“矛盾率”与接受调查母亲的子样本的“矛盾率”相同,那么子样本必须是随机抽取的。在你的描述中你没有说,所以我提出这个问题是因为我认为它对于如何或是否可以使用子样本中的这些信息来得出关于整个学生样本的结论具有重要意义。

在我看来,这个矛盾的问题有三个方面。

1是矛盾率。真的有3/4的学生猜错了吗?

2 是错误的程度——说你的母亲实际上完成了小学但停在那里却没有完成小学是一回事,而当她拥有博士学位时说她从未完成小学则是另一回事。

3是您可以交叉检查的样本比例。如果您在 20 个子样本上得出这些结论,那么我敢打赌,估计值相当不稳定,可能不值多少钱。

在我看来,你所做的将取决于你对这些问题和我最初提出的问题的回答。例如,如果 1 非常高而 3 非常高,那么我可能只使用子样本并完成它。如果 1 很高但 2 很低,那么问题似乎并没有那么糟糕,同样,它可能不值得打扰。

可能还值得知道错误是随机的还是系统的。如果学生倾向于系统地低估他们母亲的教育,那么这比他们有时完全错误地估计更成问题。

我在几篇论文上做了一些估算,结果似乎我总是给自己制造更多的麻烦。至少在我所在的地区,审稿人通常对这种方法没有很好的掌握,因此对其使用持怀疑态度。我觉得有时从出版的角度来看,承认问题并继续前进会更好。但在这种情况下,您并没有真正“估算缺失数据”,而是为变量引入了某种预测误差方差。这是一个非常有趣的问题,抛开所有的担忧,我什至不确定如果我认为这是最好的行动方案,我会怎么做