我正在尝试建立一个二元分类模型,该模型可以预测患者在住院结束时是否会感染某种疾病。我拥有的功能是不同标准医学测试的结果。但问题是几乎所有这些结果都有大约 60% - 80% 的缺失值,因为并非所有测试都与所有患者相关。那么我该如何处理缺失值,因为这里不能选择删除它们。此外,由于医学测试结果的范围从低到高,我是否应该根据标准医学测试范围将它们转换为具有高、低、中、空(对于缺失数据)的分类变量?或者用任何一个中心趋势来代替它会有所帮助吗?
如何处理数据集中的大量缺失值而不丢弃它们?
因为 NA 值可以为您的数据集提供信息,所以您不希望删除 NA 或估算值。如果患者没有接受 X 光检查,他们可能没有骨折。
所以你想从 NA 值中学习。一种常见的方法是为 NA 值添加指示符列。
线性混合效应模型将允许您拥有缺少数据的个人,而无需将所有内容转换为类别。如果您有一个连续变量,请尽可能将其用作连续体。这是一篇论文的链接,该链接详细解释了原因。这不仅适用于心理学家,同样适用,因为论点是基于数学,而不是意见。https://www.researchgate.net/publication/282351876_The_problem_with_categorical_thinking_by_psychologists
如果您有大量已知案例的数据可用于构建模型,请使用逻辑广义线性混合效应模型,即逻辑 GLMM。在 R 中,它位于 lme4 库中,并使用 GLMER 进行调用(广义线性混合效应回归)。您可能还想研究信号检测理论,因为它可能会对您有所帮助。使用逻辑 GLMM,您可以在模型中使用单个患者的信息,它将为您提供他们有/没有结果的几率。请注意仅将相关变量添加到模型中。如果预测变量过多,您的模型将无法很好地推广到未用于拟合模型的新患者。为了解决这个问题,如果你有足够的数据,将其随机分成两个数据集,在一个数据集上拟合模型,然后通过比较 Akaike 信息准则和贝叶斯信息准则来查看它对另一个数据集的预测效果如何。自举也可能对此有所帮助。
GLMM 和 LMM 通常可以很好地处理缺失数据。与传统的逻辑回归不同,LMM 没有相同单元大小的假设。如果有人说 ANOVA/回归对于违反其假设是稳健的,请不要上当,尤其是在像元大小不相等的情况下。他们没有做功课,只是在模仿他们在研究生院听到的东西。数学很清楚。