有哪些好的数据集可以学习基本的机器学习算法,为什么?

机器算法验证 机器学习 数据集
2022-02-10 09:57:26

我是机器学习的新手,正在寻找一些数据集,通过这些数据集我可以比较和对比不同机器学习算法(决策树、Boosting、SVM 和神经网络)之间的差异

我在哪里可以找到这样的数据集?在考虑数据集时我应该寻找什么?

如果您能指出一些好的数据集并告诉我是什么让它们成为好的数据集,那就太好了?

4个回答

以下站点中的数据集是免费提供的。这些数据集已被用于向学生教授 ML 算法,因为对于大多数数据集都有描述。此外,还提到了适用哪种算法。

  1. UCI-机器学习存储库
  2. 机器学习比较
  3. 乳腺图像
  4. 木兰

Kaggle有一大堆数据集,你可以用来练习。

(我很惊讶到目前为止还没有提到它!)

它有两件事(除其他外)使其成为非常宝贵的资源:

  • 很多干净的数据集。虽然无噪声数据集并不能真正代表真实世界的数据集,但它们特别适合您的目的 - 部署 ML 算法。
  • 您还可以查看其他人针对同一数据集的 ML 模型,这可能是一种有趣的方式来学习一些技巧。毋庸置疑,你从最好的从业者那里获得的那种接触,就像其他任何事情一样,非常有帮助。

首先,我建议从软件提供的示例数据开始。大多数软件发行版都包含示例数据,您可以使用这些数据来熟悉算法,而无需处理数据类型并将数据转换为算法的正确格式。即使您是从头开始构建算法,您也可以从类似实现的示例开始并比较性能。

其次,当您知道数据是如何生成的以及信噪比时,我建议您尝试使用合成数据集来了解算法的执行情况。

在 R 中,您可以使用以下命令列出当前安装的软件包中的所有数据集:

data(package = installed.packages()[, 1])

R 包mlbench具有真实数据集,可以生成对研究算法性能有用的合成数据集。

Python 的scikit-learn有样本数据,也可以生成合成/玩具数据集。

SAS 有训练数据集可供下载,SPSS 样本数据随软件一起安装在 C:\Program Files\IBM\SPSS\Statistics\22\Samples

最后,我会查看野外数据。我会在真实数据集上比较不同算法和调整参数的性能。这通常需要更多的工作,因为您很少会找到具有可以直接放入算法的数据类型和结构的数据集。

对于野外数据,我建议:

reddit 的数据集存档

KDnugget 的列表

Iris数据集毫无疑问它也在基础 R 中。