假设我们有一个二元分类问题,我们在数据集上构建了一个决策树。
假设我们有 5 个特征,那么决策树在第一步中会选择 5 个特征中的最佳特征,并在这个特征上选择最佳阈值以便分割数据集,然后继续使树更深等。 的定义best是最低的分类错误。
我的问题是:既然决策树在每一步都选择了最好的特征进行分割,并选择了最好的阈值进行分割,那么为什么随机森林(即许多决策树)是对决策树的改进?决策树不应该就足够了吗?
更新
我的意思是:如果你有一个decision tree classifier, 和 arandom forest classifier具有相同的参数,如果可能的话, (max_depth等number of children),decision tree classifier在training set, 和random forest classifier?