随机森林评估的基准数据

机器算法验证 分类 随机森林 数据集
2022-04-10 12:26:54

我想制作/探索几种随机森林的替代公式(链接),并正在寻找评估性能的科学现状。

在参考文件中,Leo 提供了“微阵列”、“DNA”、“玻璃”和“光谱”数据来展示他的方法的性能。这些可用吗?我如何获得它们以便首先重现结果,并探索更改参数设置的性能?它们的普遍性和权威性如何?

到目前为止,我发现的其他参考资料包括 ( this )、( this ) 和 ( this )。您能否提出严谨、现代且相对完整的质量分类基准列表,用于比较非常相似的随机森林的性能?

2个回答

我认为随机森林仍然主要以 Breiman 在他 2001 年的论文中介绍的形式使用。已经有一些尝试通过例如超越多数投票(http://link.springer.com/chapter/10.1007/978-3-540-30115-8_34)来改进它们,但我的印象是这些东西不是主要的-流实践。您可以在 Elements of Statistical Learning ( http://www-stat.stanford.edu/~tibs/ElemStatLearn/ )中找到关于随机森林的最新评论。

Breiman 使用的数据集可以在http://archive.ics.uci.edu/ml/找到。这些数据集是众所周知的经典。缺点是与其他一些数据集相比,它们不是很大。话虽如此,我认为 UCI 数据集是您开始调查的好地方。

最后——我认为随机森林还有很多好的工作要做;该领域远未完成。祝你好运!

一篇非常相关的论文是Fernández-Delgado、Cernadas、Barro 和 Amorim,“我们需要数百个分类器来解决现实世界的分类问题吗?”,JMLR,2014 年截至当时,作者在整个UCI 存储库上评估了许多分类器,其中包括多个版本的随机森林,发现随机森林变体确实表现最佳。似乎随机森林的特定变体可能更适合特定类别的问题,但总的来说,普通的随机森林确实工作得很好。

当然,UCI 存储库已经从作者过去的 121 个数据集增长到(当前)394 个数据集(尽管可能并非所有这些都是分类),因此更新该研究可能是有意义的。