删失变量的插补

机器算法验证 r 缺失数据 数据插补 审查 流行病学
2022-03-09 01:44:58

我有一个包含大约 200 个变量的医学数据集。其中一个变量是生物标志物(特定酶的浓度)。它的分布是正确的,问题是高于某个级别的值在该级别被审查/截断。因此,虽然变量的平均值约为 10,但任何大于 50 的值都记录为 50。

我想为这些审查值估算连续值。我目前正在对 R 中的mouse包使用多重插补,尽管我可以使用其他系统并且我对其他方法持开放态度。我的一个想法是重新编码所有那些缺失的审查值,然后运行插补。如果最初审查的任何估算值低于截止值,那么它们将被分配为截止值。

我想知道对此的看法,和/或任何更好的处理方法。

1个回答

如果您无法了解 50 以上的数据是如何分布的,那么任何包括多重插补在内的插补方法都是在黑暗中开枪。既然你有 200 个变量,它们中的任何一个都与生物标志物相关吗?如果您可以将生物标志物的回归拟合为协变量的函数,您可以使用该模型来预测截断值的值。您可以根据模型中的残差方差将错误应用于预测,从而以这种方式生成多个插补。这会更明智。当然,这假设您可以找到一个有效的模型,并且残差具有零均值和恒定方差。您只能拟合非截断的生物标志物值来构建模型。