随机森林模型中的轮询与平均

机器算法验证 随机森林 数理统计 集成学习
2022-03-31 14:20:29

为什么对于随机森林,我们取集合中每个分类器的平均投票而不是集合中每个分类器的平均概率?为什么轮询是首选的背后是否有理论,或者仅仅是它似乎在经验上更好地工作?使用概率似乎可以消除调整截止值的需要。

1个回答

这看起来像您正在寻找的答案:http: //people.dsv.su.se/~henke/papers/bostrom07c.pdf

作者着眼于使用来自 ensemble 成员的平均投票与平均概率以及其他一些方法来近似叶节点中的杂质。例如,即使您确实将树生长到最大深度(如评论中所述),“拉普拉斯近似”也可用于通过简单地将每个类的观察计数加一来获得每个类的非零概率类在叶子。

从经验上讲,作者总结说,使用相对类频率的平均值(在 34 个数据集上)比使用平均投票(即轮询)更好,尽管它并不比使用一些“调整后的”概率平均值(如拉普拉斯近似)更好。

对我来说,差异看起来很小,但请查看第 5 页上的“准确度和 AUC”表。这可能会以一种或另一种方式说服你。