机器算法验证 - 删失变量的插补 - 吾爱随笔录

我有一个包含大约 200 个变量的医学数据集。其中一个变量是生物标志物（特定酶的浓度）。它的分布是正确的，问题是高于某个级别的值在该级别被审查/截断。因此，虽然变量的平均值约为 10，但任何大于 50 的值都记录为 50。

我想为这些审查值估算连续值。我目前正在对 R 中的mouse包使用多重插补，尽管我可以使用其他系统并且我对其他方法持开放态度。我的一个想法是重新编码所有那些缺失的审查值，然后运行插补。如果最初审查的任何估算值低于截止值，那么它们将被分配为截止值。

我想知道对此的看法，和/或任何更好的处理方法。