数据挖掘 - Weka：随机森林的实现 - 吾爱随笔录

数据挖掘随机森林威卡

2022-02-17 19:37:08

我想知道随机森林是如何在 Weka 中实现的。这篇论文非常具体地介绍了 Weka 中的 RF，但第 2 章中对其学习过程的描述对我来说似乎很奇怪。他们说：

我的问题：

我正在使用 Weka 3.8.3 - 不确定这是否重要。

感谢所有提示:)

1个回答

您链接的论文在特征子集方面似乎是错误的。我在 randomForest 的文档中找不到它，但是 randomForest的源代码使用 randomTree 作为基本模型，并且在该文档中它说

一棵树，它在每个节点上考虑 K 个随机选择的属性。

因此，选择似乎发生在每次拆分时。
（请注意，xgboost 在每个树、级别（深度）和节点上都有特征子集。我没有看到任何明显的理由表明这些选项中的一个或多个应该总是更可取...）

对于默认的特征数量，sqrt(m) 是最常见的，但看起来 Weka 使用的是 lg(m)。请参阅https://weka.sourceforge.io/doc.dev/weka/classifiers/trees/RandomForest.html上的选项 -K

是的，Weka 使用 Quinlan 决策树家族，它使用信息增益进行拆分（与使用 gini 的 CART 相反）。

其它你可能感兴趣的问题