我正在尝试查找可在线免费获得的多标签分类数据集。
通过“多标签”,我的意思是每个实例都可以用从单个到标签,在哪里是数据集中不同标签的总数。通常,有关标签的所有信息都将用二进制矩阵表示, 在哪里如果实例有标签, 和否则。
到目前为止,我发现了以下两个数据集:
我还查看了Mulan multi-label datasets page,但它们的描述非常不透明(有时是错误的)。
我在哪里可以找到更多的多标签数据集(最好总共有 20-200 个不同的标签)?
我正在尝试查找可在线免费获得的多标签分类数据集。
通过“多标签”,我的意思是每个实例都可以用从单个到标签,在哪里是数据集中不同标签的总数。通常,有关标签的所有信息都将用二进制矩阵表示, 在哪里如果实例有标签, 和否则。
到目前为止,我发现了以下两个数据集:
我还查看了Mulan multi-label datasets page,但它们的描述非常不透明(有时是错误的)。
我在哪里可以找到更多的多标签数据集(最好总共有 20-200 个不同的标签)?
您可以在此处找到包含大约 80 个多标签数据集的完整存储库:
试试,Kaggle 有毒评论挑战。您必须同时将答案分类为多个类别。这是一个多标签分类问题。
19 个免费数据集:
美国人口普查数据:美国人口普查局发布州、城市甚至邮政编码级别的大量人口统计数据。该数据集非常适合创建地理数据可视化,可以在人口普查局网站上访问。或者,可以通过 API 访问数据。使用该 API 的一种便捷方式是通过 choroplethr。总的来说,这个数据非常干净,非常全面。
FBI 犯罪数据:FBI 犯罪数据集令人着迷。如果您对分析时间序列数据感兴趣,可以使用它来绘制 20 年期间全国犯罪率的变化图表。或者,您可以按地理位置查看数据。
还有更多:https ://www.springboard.com/blog/free-public-data-sets-data-science-project/