我正在使用随机森林解决分类问题。为此,我决定使用 Python 库 scikit-learn。但我对随机森林算法和这个工具都是新手。我的数据包含许多因素变量。我搜索了一下,发现像我们在线性回归中那样为因子变量赋予数值是不正确的,因为它会将其视为连续变量并给出错误的结果。但是我找不到任何关于如何在 scikit-learn 中处理因子变量的信息。请告诉我使用的选项或指向我可以获得的一些文件。
使用随机森林时在 scikit-learn 中表示因子变量的方法是什么?
机器算法验证
Python
随机森林
scikit-学习
2022-04-12 14:26:49
1个回答
您似乎正在将scikit-learn的 Random Forest 与randomForestpackage in进行比较R,其中该包自动处理分类变量。
但是在 scikit-learn 中,您必须自己预处理数据。为此,您可以使用DictVectorizer类,该类将为原始特征的每个新值创建新的二进制特征。
其它你可能感兴趣的问题