我正在实现一个决策树算法,我想了解它相对于其他实现的执行情况。谁能推荐流行的数据集来训练和测试决策树算法?我找到了一些类似的资源,但我不确定它是否被广泛使用。
决策树算法的基准数据集
机器算法验证
机器学习
数据集
大车
2022-03-23 14:52:45
4个回答
我会推荐你提到的 UCI 存储库。它已经存在了很长一段时间,包含许多数据集,并且经常在科学出版物中被引用。
您在 UCI 存储库的正确轨道上。 MLcomp是另一个很棒的资源,它会自动在多个数据集上对您的算法进行评分。
你可以尝试在 kaggle.com 上查看来自 Kaggle 比赛的数据集。有些需要相当程度的预处理,但那里有一些相对“干净”的数据集。您可以通过向当前或过去的比赛提交预测来查看您的算法的表现,并查看它相对于其他参与者的表现如何。
我想我应该提到milksets,一个围绕一些 UCI 数据集的 Python 包装器。它似乎有 7 个数据集,并将它们生成为一个简单的 2D Numpy 数组。
其它你可能感兴趣的问题