有一个包含 30 个变量和超过 500 万个观测值的数据集。我们计划使用数据的子样本进行分析。每个变量约有 0.02 - 2.5% 缺失。为此,我计划在 Stata 中进行插补,但我不确定我们是否应该一次或在不同阶段对所有 50 个变量进行插补。
我们将使用 11 个变量来创建子样本。因此,我们计划在此阶段之前使用插补,以便正确应用排除标准。但是,一旦完成,将运行 3 种不同的回归(OLS 和逻辑模型)。所有 30 个变量都将在其中的某个时间点使用。
问题是:是否应在应用排除标准之后对其他变量(未用于排除标准的 19 个变量)进行插补,或者是否应同时对所有变量进行插补(在应用排除之前标准)。
stata 中的命令,hotdeck
就是我们要使用的。