试图在这里更好地理解随机森林算法。使用相同的训练和保持数据集,我在这里尝试了两件事:
设置一个小的 n_estimator (10),在我的训练数据集上进行训练并应用于我的holdout 数据集。如果我重复这几次,结果(例如正确预测的目标类)在每次运行中都会有所不同。我的理解是,由于我的模型中树的数量很小,因此我的模型在训练后会发生变化,从而导致不同的结果。
设置一个高 n_estimator (300) 并做同样的事情。那么结果就不一样了。我的看法是,高 n_estimator 的影响减少了模型的变化,因此我每次都得到相同的预测。
因此,如果我多次运行场景 1 并合并结果(即运行 1 预测第 1 类中的 AB,运行 2 预测第 1 类中的 AC,运行 3 预测第 1 类中的 D),我的最终结果将是 ABCD 在1 类。我的问题是: 1. 这与使用大型 n_estimator 运行一次基本上相同吗?2. 这种方法是否有问题,因为我更多地依赖“猜测”(例如,小的 n_estimator 会导致结果的更大变化)?
谢谢!