随机森林评估的基准数据
机器算法验证
分类
随机森林
数据集
2022-04-10 12:26:54
2个回答
我认为随机森林仍然主要以 Breiman 在他 2001 年的论文中介绍的形式使用。已经有一些尝试通过例如超越多数投票(http://link.springer.com/chapter/10.1007/978-3-540-30115-8_34)来改进它们,但我的印象是这些东西不是主要的-流实践。您可以在 Elements of Statistical Learning ( http://www-stat.stanford.edu/~tibs/ElemStatLearn/ )中找到关于随机森林的最新评论。
Breiman 使用的数据集可以在http://archive.ics.uci.edu/ml/找到。这些数据集是众所周知的经典。缺点是与其他一些数据集相比,它们不是很大。话虽如此,我认为 UCI 数据集是您开始调查的好地方。
最后——我认为随机森林还有很多好的工作要做;该领域远未完成。祝你好运!
一篇非常相关的论文是Fernández-Delgado、Cernadas、Barro 和 Amorim,“我们需要数百个分类器来解决现实世界的分类问题吗?”,JMLR,2014 年。截至当时,作者在整个UCI 存储库上评估了许多分类器,其中包括多个版本的随机森林,发现随机森林变体确实表现最佳。似乎随机森林的特定变体可能更适合特定类别的问题,但总的来说,普通的随机森林确实工作得很好。
当然,UCI 存储库已经从作者过去的 121 个数据集增长到(当前)394 个数据集(尽管可能并非所有这些都是分类),因此更新该研究可能是有意义的。
其它你可能感兴趣的问题