我有一个大型调查,其中学生被问及他们母亲的教育水平等。有的跳过了,有的回答错了。我知道这一点,因为后来采访了最初受访者母亲的子样本,并问了同样的问题。(我敢肯定,母亲的回答也存在一些较小的错误。)
我的挑战是决定如何最好地利用第二个更可靠的数据源。至少我可以用它来更智能地估算丢失的数据,如果我只能依赖完整的案例的话。但是,如果我可以交叉核对数据的孩子中有 3/4 的数据与他们母亲的回答相矛盾,那么我似乎应该使用插补来创建多个数据集来捕捉那里的不确定性。[补充:我说 3/4 是为了说明一点,但现在我已经检查了数据,我不妨告诉你,接近 40% 是有差异的]
我个人将使用母亲的教育作为混合模型中的预测因子,但如果有人对其他情况有话要说,我也很想了解它们。
我很想收到粗略或具体的建议。谢谢!
更新:我暂时没有解决这个问题,虽然我很欣赏 Will 和 Conjugate_Prior 的回答,但我希望获得更具体和技术性的反馈。
下面的散点图将让您了解这两个变量在 10,000 个同时存在的案例中是如何相关的。它们嵌套在 100 多所学校中。它们的相关系数为 0.78,学生的答案-均值:5.12 sd=2.05,妈妈的答案,均值=5.02,sd=1.92 大约 15% 的情况下学生的答案缺失。
