我正在研究Random Forest algorithm并PySpark MLlib怀疑我们传递给模型的树参数的数量。Random Forest modelingin的标准格式PySpark MLlib是:
model = RandomForest.trainRegressor(trainingData, categoricalFeaturesInfo={},
numTrees=3, featureSubsetStrategy="auto",
impurity='variance', maxDepth=4, maxBins=32)
我的疑问是如何确定传递给numTrees参数的树的最佳值?我认为树木的数量越多,性能越好,但它会随着树木数量的增加而不断提高吗?是否有一个点之后它将开始对性能产生负面影响?如果是,那么如何为我的数据集找到最佳树数?