用于回归的大型分类数据集

数据挖掘 数据集 分类数据
2021-10-04 18:02:15

我需要收集几个大型数据集(数千个样本,数十个特征)进行回归,只有分类输入。我已经在 UCI 存储库中寻找此类数据集,但没有找到合适的数据集。

有谁知道任何这样的数据集,或互联网上的任何其他数据集存储库?

3个回答

我想建议检查以下开放数据 存储库元存储库(它们不专注于分类数据,但我确信那里列出的许多数据集都包含此类数据):

还可以查看开源软件Parallel Sets中的内置数据集,该软件专注于分类数据可视化:https ://eagereyes.org/parallel-sets 。

试试1998 KDD Cup 数据集它是一个具有分类和整数预测变量的回归问题。对于您的任务,您可以将整数预测变量视为分类变量或完全忽略它们。

您所需要的只是具有足够记录和足够功能的数据集来满足您的目的。您可以通过分组简单地将任何连续变量转换为分类变量。通过搜索“大型免费数据集”可以找到一些大型数据集的来源。如果您对大量分类数据死心塌地,请尝试保险数据(鉴于我是精算师,我应该早点想到这一点)。正如我从第一人称经验中所知道的那样,这些往往充满了分类变量。