我是机器学习的新手,如果这个问题的答案很明显,请原谅我。我一直在使用逻辑回归研究二元预测问题。使用分类和连续的选择,我已经能够预测 AUC 约为的测试集的准确性。我一直在比较多种数据预处理方法,在这些方法中我执行各种过滤步骤的组合,这些步骤是:
- 无数据过滤
- 在不替换的情况下去除基于均值的异常值
- 使用均值替换去除基于均值的异常值并另外用均值替换 NA。
- 在不替换的情况下去除中值绝对偏差异常值
- 通过均值替换去除中值绝对偏差异常值并另外用均值替换 NA。
- 在删除了所有 NA 的数据集上重复上述 5 个过程。
我发现当我删除所有中值绝对偏差异常值并将它们替换为平均值并另外用平均值替换预先存在的 NA 时,我的模型在测试集上是最具预测性的。
是否可以在实施模型时用均值来估算基于均值的缺失值?
谢谢!