通过“投票”取两个决策树的“平均值”是什么意思

数据挖掘 机器学习 随机森林 决策树
2021-09-26 16:37:46

我听说,关于随机森林算法,该算法将适合许多决策树并通过投票取它们的平均值。(这也与bagging有关)

我了解平均值对于某些示例的含义,例如X=[1,2,3],X¯=2. 但是我不知道如果我有两个决策树会意味着什么。

谁能提供一个简单的例子/解释几个决策树的平均过程?

1个回答

我认为您将两种不同的东西混合在一起 - 用于回归和分类的随机森林。回归意味着预测一个连续的值(数字)。随机森林可以构建多个回归树,每个回归树都对数量进行预测。在这种情况下,很容易理解。数值预测被平均以给出真实数值的稳健预测。

但是,我认为您是在询问分类 - 预测标称值(也称为分类或因子)。在这种情况下,每个决策树都预测一个类别。通常,谈论平均类别是没有意义的。相反,多个决策树“投票”——即计算每个类别被预测的次数,并将获得最多票数的类别作为预测。没有平均,只有计数。

这是一个简单的例子。

数据

V1   V2    V3    Class
A     C     E      X
A     C     F      X
B     C     F      Y
B     D     F      Y 
B     D     E      X

决策树 1 仅使用特征 V1:
如果 V1 = A,则预测 X,否则预测 Y

决策树 2 仅使用特征 V2:
如果 V2 = C,则预测 X,否则预测 Y

决策树 3 仅使用特征 V3:
如果 V3 = E,则预测 X,否则预测 Y

现在我们要预测一个新点 (A, C, F) 的类别:
- 决策树 1 看到 V1 = A 并预测 Class=X
- 决策树 2 看到 V2 = C 并预测 Class=X
- 决策树 3 看到V3 = F 并且预测 Class=Y
有两票给 X,一票给 Y,所以森林预测 X,即获得多数票的类别。