我正在研究一个多类分类问题,有大约 65 个特征和大约 15 万个实例。30% 的特征是分类的,其余的是数字的(连续的)。我知道在将数据拆分为训练和测试子集后应该进行标准化或规范化,但我仍然不确定插补过程。对于分类任务,我计划使用随机森林、逻辑回归和 XGBOOST(它们不是基于距离的)。
有人可以解释一下哪个应该先来吗?拆分>插补或插补>拆分?如果split>imputation是正确的,我应该遵循imputation>standardization还是standardization>imputation?