机器算法验证 - 使用随机森林时在 scikit-learn 中表示因子变量的方法是什么？ - 吾爱随笔录

使用随机森林时在 scikit-learn 中表示因子变量的方法是什么？

机器算法验证 Python 随机森林 scikit-学习

2022-04-12 14:26:49

我正在使用随机森林解决分类问题。为此，我决定使用 Python 库 scikit-learn。但我对随机森林算法和这个工具都是新手。我的数据包含许多因素变量。我搜索了一下，发现像我们在线性回归中那样为因子变量赋予数值是不正确的，因为它会将其视为连续变量并给出错误的结果。但是我找不到任何关于如何在 scikit-learn 中处理因子变量的信息。请告诉我使用的选项或指向我可以获得的一些文件。

1个回答

您似乎正在将scikit-learn的 Random Forest 与randomForestpackage in进行比较R，其中该包自动处理分类变量。

但是在 scikit-learn 中，您必须自己预处理数据。为此，您可以使用DictVectorizer类，该类将为原始特征的每个新值创建新的二进制特征。

其它你可能感兴趣的问题

上一篇是否应该对转换后的数据或原始数据执行事后测试？下一篇确定共线性度的最快方法是什么？