我听说,关于随机森林算法,该算法将适合许多决策树并通过投票取它们的平均值。(这也与bagging有关)
我了解平均值对于某些示例的含义,例如. 但是我不知道如果我有两个决策树会意味着什么。
谁能提供一个简单的例子/解释几个决策树的平均过程?
我听说,关于随机森林算法,该算法将适合许多决策树并通过投票取它们的平均值。(这也与bagging有关)
我了解平均值对于某些示例的含义,例如. 但是我不知道如果我有两个决策树会意味着什么。
谁能提供一个简单的例子/解释几个决策树的平均过程?
我认为您将两种不同的东西混合在一起 - 用于回归和分类的随机森林。回归意味着预测一个连续的值(数字)。随机森林可以构建多个回归树,每个回归树都对数量进行预测。在这种情况下,很容易理解。数值预测被平均以给出真实数值的稳健预测。
但是,我认为您是在询问分类 - 预测标称值(也称为分类或因子)。在这种情况下,每个决策树都预测一个类别。通常,谈论平均类别是没有意义的。相反,多个决策树“投票”——即计算每个类别被预测的次数,并将获得最多票数的类别作为预测。没有平均,只有计数。
这是一个简单的例子。
V1 V2 V3 Class
A C E X
A C F X
B C F Y
B D F Y
B D E X
决策树 1 仅使用特征 V1:
如果 V1 = A,则预测 X,否则预测 Y
决策树 2 仅使用特征 V2:
如果 V2 = C,则预测 X,否则预测 Y
决策树 3 仅使用特征 V3:
如果 V3 = E,则预测 X,否则预测 Y
现在我们要预测一个新点 (A, C, F) 的类别:
- 决策树 1 看到 V1 = A 并预测 Class=X
- 决策树 2 看到 V2 = C 并预测 Class=X
- 决策树 3 看到V3 = F 并且预测 Class=Y
有两票给 X,一票给 Y,所以森林预测 X,即获得多数票的类别。