“随机森林”还是“随机森林”?

机器算法验证 随机森林 术语
2022-03-13 06:38:57

最近困扰我的一个问题是将随机森林分类器称为“随机森林”或“随机森林”是否更正确(例如“我们实现了一个随机森林分类器”或“我们实现了一个随机森林分类器” ”。)哪个更正确,或者两者都同样正确?Breiman 在他的经典论文https://www.stat.berkeley.edu/~breiman/randomforest2001.pdf中似乎可以互换使用两者,尽管我读过的大多数论文都将其称为“随机森林”。

2个回答

如果你去 Breiman 的页面,你会发现这个关于商标的声明。

Random Forests(tm) 是 Leo Breiman 和 Adele Cutler 的商标,并被独家授权给 Salford Systems 用于该软件的商业版本。我们的商标还包括 RF(tm)、RandomForests(tm)、RandomForest(tm) 和 Random Forest(tm)。

我会说,所有的都是一样的。

维基词典将“森林”定义为

覆盖相对较大区域的密集树木。比树林大。

因此,随机森林必然是两个或更多的大树集合。也许这可能是随机森林拟合的平均值不止一次,使用不同的超参数或数据。

我们还有一个新术语:当用 进行探索性分析时ntree = small,我们有一个随机木

如果以上内容不够迂腐:

library(randomForest)
random_wood <- randomForest(Species ~ ., ntree = 50, data = iris)
random_forest_1 <- randomForest(Species ~ ., ntree = 200, data = iris, mtry = 2)
random_forest_2 <- randomForest(Species ~ ., ntree = 200, data = iris, mtry = 3)
random_forests <- combine(random_forest_1, random_forest_2)