用于测试 DBSCAN 的真实数据集?

数据挖掘 数据集 数据库扫描
2022-02-26 07:42:28

我正在寻找可以测试我的 DBSCAN 算法实现的真实数据集,即(理想情况下为 2 维)空间中的点数据集,或一组节点和有关它们之间距离的信息。

我已经在 SNAP 和 CRAWDAD 上查看过此类数据集,例如具有距离的道路网络数据集,或具有 GPS 坐标的城市等,但我没有找到任何数据集!

我知道 DBSCAN 据说是对真实数据最好的算法之一,但似乎找不到人们使用的真实数据集......

建议?

2个回答

如果您想测试您的算法是否按预期工作,我会使用sklearn datasets它们允许您创建具有某些属性的简单合成 2D 数据:圆形、半月形等。

在此处输入图像描述

如果你想要“真实”的数据集,在简单搜索后找到一个有趣的资源:

它似乎是文献中使用的数据集的集合。

否则,我建议您寻找图像分割数据集,例如地图,因为它们非常适合 DBSCAN。Kaggle是搜索的好地方,谷歌数据集搜索工具也是

Kaggle 有一些不错的数据集可用,包括经典的Iris数据集。看看并选择一个看起来很有趣的。

那里有一些有影响力的现实世界数据集,包括与 COVID-19 相关的数据集。较轻的一面可能是不久前发布的经过清理的 Iris 数据集。

编辑:为了详细说明 COVID-19,Kaggle 拥有 COVID-19 开放研究数据集 (CORD-19),这是一个 2 GB 的漂亮数据集,由 Allen Institute for AI(Allen 和 Microsoft 的 Paul Allen)与许多合作伙伴共同创建. 这是一个很好的起点。他们还拥有来自约翰霍普金斯大学的出色 COVID-19 数据集。必须有 100 多个 COVID-19 数据集。此链接应显示搜索功能。