我试图准确了解元随机森林分类器如何确定最终预测,我知道有一个投票系统,并且来自决策树的聚合用于找到最终预测,我从这里读到:Classification Random Forests in蟒蛇:
“随机森林是一种集成决策树算法,因为在回归问题的情况下,最终预测是每个决策树预测的平均值;在分类中,它是最频繁预测的平均值”
我阅读了 RFC 源代码: Ensemble/Forest:
“输入样本的预测类别是森林中树木的投票,由它们的概率估计加权。也就是说,预测类别是树木中平均概率估计最高的类别”
这是否意味着例如:
我们有 3 个类(A、B 和 C)和 4 个估计器,每棵树都有一定数量的最终叶节点和一个类预测;
A、B 或C 类的概率是叶节点的类预测次数的结果,即Tree1:A 类在10 次可能中被预测3 次,另外7 次被预测为不同的类。
Class A: [0.30, 0.25, 0.30, 0.25] | mean = 0.275
Class B: [0.10, 0.40, 0.10, 0.40] | mean = 0.250
Class C: [0.70, 0.65, 0.70, 0.65] | mean = 0.675
因此,元分类器将预测 C 类,因为它具有最高的平均概率。这个对吗?还是我看这个完全错误的方式?