随机森林分类器的阈值

数据挖掘 机器学习 scikit-学习 随机森林
2022-03-15 07:38:58

有什么方法可以为 sklearn 包中的随机森林分类器的投票结果设置阈值,以防止对传入测试数据的任何错误分类。

1个回答

是的,最重要的参数是树的深度。这是一种预剪枝技术,可以防止过度拟合。专门针对 sklearn 的是:

estimator.tree_.max_depth

我建议你在 max_depth 上执行 GridSearch:

params = {'max_depth':[1,50]}
gs = GridSearchCV(DecisionTreeClassifier(), params)
gs.fit(X,y)

其中 X 是包含实例的训练集,y 是标签。

有些软件包也支持像这样的后修剪https://svaante.github.io/decision-tree-id3/