我已经在一些数据集上训练了一个随机森林模型,并且喜欢预测训练中没有看到的其他数据的结果。这样做时,我得到
ValueError: Number of features of the model must match the input. Model n_features is 12 and input n_features is 13
问题是训练数据中有一些变量在我的预测集中不存在。D_0例如,我通过虚拟变量, D_1,捕获某些特征的计数D_2,D_3表示D. D_2我的训练数据中可能没有,但D_2在我的预测数据集中。
在这种情况下,最佳做法是什么?我计划在未来的数据上重复使用这个估计器,我不知道哪些特征会存在。我是否应该检查两个功能列表之间的不一致并手动更正那些不重叠的?在上面的示例中,我将编码所有出现的D_2toD_3以对齐功能列表。