机器算法验证 - 随机森林评估的基准数据 - 吾爱随笔录

机器算法验证分类随机森林数据集

2022-04-10 12:26:54

我想制作/探索几种随机森林的替代公式（链接），并正在寻找评估性能的科学现状。

在参考文件中，Leo 提供了“微阵列”、“DNA”、“玻璃”和“光谱”数据来展示他的方法的性能。这些可用吗？我如何获得它们以便首先重现结果，并探索更改参数设置的性能？它们的普遍性和权威性如何？

到目前为止，我发现的其他参考资料包括 ( this )、( this ) 和 ( this )。您能否提出严谨、现代且相对完整的质量分类基准列表，用于比较非常相似的随机森林的性能？

2个回答

我认为随机森林仍然主要以 Breiman 在他 2001 年的论文中介绍的形式使用。已经有一些尝试通过例如超越多数投票（http://link.springer.com/chapter/10.1007/978-3-540-30115-8_34）来改进它们，但我的印象是这些东西不是主要的-流实践。您可以在 Elements of Statistical Learning ( http://www-stat.stanford.edu/~tibs/ElemStatLearn/ )中找到关于随机森林的最新评论。

Breiman 使用的数据集可以在http://archive.ics.uci.edu/ml/找到。这些数据集是众所周知的经典。缺点是与其他一些数据集相比，它们不是很大。话虽如此，我认为 UCI 数据集是您开始调查的好地方。

最后——我认为随机森林还有很多好的工作要做；该领域远未完成。祝你好运！

一篇非常相关的论文是Fernández-Delgado、Cernadas、Barro 和 Amorim，“我们需要数百个分类器来解决现实世界的分类问题吗？”，JMLR，2014 年。截至当时，作者在整个UCI 存储库上评估了许多分类器，其中包括多个版本的随机森林，发现随机森林变体确实表现最佳。似乎随机森林的特定变体可能更适合特定类别的问题，但总的来说，普通的随机森林确实工作得很好。

当然，UCI 存储库已经从作者过去的 121 个数据集增长到（当前）394 个数据集（尽管可能并非所有这些都是分类），因此更新该研究可能是有意义的。

其它你可能感兴趣的问题