元随机森林分类器如何确定最终分类?

数据挖掘 机器学习 分类 随机森林
2021-10-05 13:01:16

我试图准确了解元随机森林分类器如何确定最终预测,我知道有一个投票系统,并且来自决策树的聚合用于找到最终预测,我从这里读到:Classification Random Forests in蟒蛇

“随机森林是一种集成决策树算法,因为在回归问题的情况下,最终预测是每个决策树预测的平均值;在分类中,它是最频繁预测的平均值”

我阅读了 RFC 源代码: Ensemble/Forest

“输入样本的预测类别是森林中树木的投票,由它们的概率估计加权。也就是说,预测类别是树木中平均概率估计最高的类别”

这是否意味着例如:

决策树示例

我们有 3 个类(A、B 和 C)和 4 个估计器,每棵树都有一定数量的最终叶节点和一个类预测;

A、B 或C 类的概率是叶节点的类预测次数的结果,即Tree1:A 类在10 次可能中被预测3 次,另外7 次被预测为不同的类。

Class A: [0.30, 0.25, 0.30, 0.25] | mean = 0.275
Class B: [0.10, 0.40, 0.10, 0.40] | mean = 0.250
Class C: [0.70, 0.65, 0.70, 0.65] | mean = 0.675

因此,元分类器将预测 C 类,因为它具有最高的平均概率。这个对吗?还是我看这个完全错误的方式?

1个回答

每个数据点 X您预测的必然只落在每棵树的一个叶节点中。所以如果我有 N 棵树,并且ķ一个 是其中的树的数量 X 最终出现在一个预测 A 的叶节点中,那么我们可以说 X 是类 一个 用“概率” ķ一个/ñ,对于其他类也是如此。然后你可以对哪个类进行 argmax 预测X 属于基于“概率”(我一直把它放在引号中,因为它不是一个实际的概率,但有时可以这样想。)