我目前正在尝试自己实现一些机器学习算法。它们中的许多具有难以调试的令人讨厌的特性,一些错误不会导致程序崩溃,而是无法按预期工作,并且看起来算法只会给出较弱的结果。
我想有一些方法来增加我对实现的信心,例如,如果我有一些小数据集,以及附加信息“算法 X 适用于 Y 次迭代并在该数据集上得到结果 Z”,那将非常有帮助。有人听说过这样的数据集吗?
我目前正在尝试自己实现一些机器学习算法。它们中的许多具有难以调试的令人讨厌的特性,一些错误不会导致程序崩溃,而是无法按预期工作,并且看起来算法只会给出较弱的结果。
我想有一些方法来增加我对实现的信心,例如,如果我有一些小数据集,以及附加信息“算法 X 适用于 Y 次迭代并在该数据集上得到结果 Z”,那将非常有帮助。有人听说过这样的数据集吗?
我们目前维护 223 个数据集作为机器学习社区的服务。您可以通过我们的可搜索界面查看所有数据集。对于喜欢旧格式的人,我们的旧网站仍然可用。...如果您想捐赠数据集,请查阅我们的捐赠政策。...我们还为存储库设置了一个镜像站点。
此外,以下MIAS 数据集已被广泛使用和研究:
在对算法进行基准测试时,建议使用标准测试数据库(数据集),以便研究人员能够直接比较结果。大多数乳房 X 线摄影数据库不公开。最容易访问的数据库,因此也是最常用的数据库是乳腺 X 线图像分析协会 (MIAS) 数据库和乳腺 X 线筛查数字数据库 (DDSM)。此外,目前很少有项目开发新的乳腺图像数据库以及一些旧项目。
Bashar 提到的 UCI 存储库可能是最大的,不过我想添加一些我遇到的较小的集合: