有什么方法可以为 sklearn 包中的随机森林分类器的投票结果设置阈值,以防止对传入测试数据的任何错误分类。
随机森林分类器的阈值
数据挖掘
机器学习
scikit-学习
随机森林
2022-03-15 07:38:58
1个回答
是的,最重要的参数是树的深度。这是一种预剪枝技术,可以防止过度拟合。专门针对 sklearn 的是:
estimator.tree_.max_depth
我建议你在 max_depth 上执行 GridSearch:
params = {'max_depth':[1,50]}
gs = GridSearchCV(DecisionTreeClassifier(), params)
gs.fit(X,y)
其中 X 是包含实例的训练集,y 是标签。
有些软件包也支持像这样的后修剪https://svaante.github.io/decision-tree-id3/