我有一个包含大约 200 个变量的医学数据集。其中一个变量是生物标志物(特定酶的浓度)。它的分布是正确的,问题是高于某个级别的值在该级别被审查/截断。因此,虽然变量的平均值约为 10,但任何大于 50 的值都记录为 50。
我想为这些审查值估算连续值。我目前正在对 R 中的mouse包使用多重插补,尽管我可以使用其他系统并且我对其他方法持开放态度。我的一个想法是重新编码所有那些缺失的审查值,然后运行插补。如果最初审查的任何估算值低于截止值,那么它们将被分配为截止值。
我想知道对此的看法,和/或任何更好的处理方法。