数据挖掘 - 通过“投票”取两个决策树的“平均值”是什么意思 - 吾爱随笔录

数据挖掘机器学习随机森林决策树

2021-09-26 16:37:46

我听说，关于随机森林算法，该算法将适合许多决策树并通过投票取它们的平均值。（这也与bagging有关）

我了解平均值对于某些示例的含义，例如 $\vec{x}=[1,2,3], \; \bar{x} =2$ . 但是我不知道如果我有两个决策树会意味着什么。

谁能提供一个简单的例子/解释几个决策树的平均过程？

1个回答

我认为您将两种不同的东西混合在一起 - 用于回归和分类的随机森林。回归意味着预测一个连续的值（数字）。随机森林可以构建多个回归树，每个回归树都对数量进行预测。在这种情况下，很容易理解。数值预测被平均以给出真实数值的稳健预测。

但是，我认为您是在询问分类 - 预测标称值（也称为分类或因子）。在这种情况下，每个决策树都预测一个类别。通常，谈论平均类别是没有意义的。相反，多个决策树“投票”——即计算每个类别被预测的次数，并将获得最多票数的类别作为预测。没有平均，只有计数。

这是一个简单的例子。

数据

V1   V2    V3    Class
A     C     E      X
A     C     F      X
B     C     F      Y
B     D     F      Y 
B     D     E      X

决策树 1 仅使用特征 V1：
如果 V1 = A，则预测 X，否则预测 Y

决策树 2 仅使用特征 V2：
如果 V2 = C，则预测 X，否则预测 Y

决策树 3 仅使用特征 V3：
如果 V3 = E，则预测 X，否则预测 Y

现在我们要预测一个新点 (A, C, F) 的类别：
- 决策树 1 看到 V1 = A 并预测 Class=X
- 决策树 2 看到 V2 = C 并预测 Class=X
- 决策树 3 看到V3 = F 并且预测 Class=Y
有两票给 X，一票给 Y，所以森林预测 X，即获得多数票的类别。

其它你可能感兴趣的问题