我想为我的分类特征执行目标编码,尽管如果其中任何一个有缺失值,我不确定何时执行数据插补。假设我有几个连续特征,Cnt1-Cnt5(没有 NA)和两个分类特征 Cat1 和 Cat2,其中 Cat2 有缺失值。我们还假设我想使用随机森林作为插补方法。哪种方法是正确的?
Impute Cat2 将 Cat1 和 Cnt1-Cnt5 视为 RF 中的预测变量,然后对分类变量执行目标编码。
针对非缺失和 Cat1 对 Cat2 进行目标编码,为 Cat2 构建 RF 并估算缺失(现在是数字,而不是分类)。
还有其他方法吗?
我们可以概括这个问题并询问我们是否应该在目标编码之前或之后为任何类型的变量(包括连续变量)估算缺失?
我看到了目标编码后插补的至少一个好处——如果测试数据中存在看不见的分类变量级别(这将导致在执行目标编码后测试集中出现 NA),那么这些将很容易被构建在训练数据,没有由于新级别而导致的任何潜在错误。