我正在尝试使用 R 中的随机森林模型进行预测。
但是我得到了错误,因为某些因素在测试集中的值与在训练集中的值不同。例如,某个因子在测试集中具有未出现在训练集中的Cat_2
值等。34, 68, 76
不幸的是,我无法控制测试集......我必须按原样使用它。
我唯一的解决方法是将有问题的因素转换回数值,使用as.numeric()
. 它可以工作,但我不是很满意,因为这些值是没有数字意义的代码......
你认为会有另一种解决方案,从测试集中删除新值吗?但是在不删除训练和测试中的所有其他因子值(比如说 values1, 2, 14, 32
等)的情况下,它们包含可能对预测有用的信息。