我正在寻找遵循不同分布和形式的二维数据点的数据集(每个数据点是两个值 (x,y) 的向量)。生成此类数据的代码也会有所帮助。我想用它们来绘制/可视化一些聚类算法的执行方式。这里有些例子:
- 星云数据
- 四个集群,一个易于分离
- 螺旋形(无簇)
- 戒指
- 两朵几乎没有分开的云
- 两个平行的簇形成一个螺旋
- ... ETC
我正在寻找遵循不同分布和形式的二维数据点的数据集(每个数据点是两个值 (x,y) 的向量)。生成此类数据的代码也会有所帮助。我想用它们来绘制/可视化一些聚类算法的执行方式。这里有些例子:
以下是一些专门为此任务设计的数据集:
这个玩具聚类基准包含各种 ARFF 格式的数据集(可以很容易地转换为 CSV),大部分带有真实标签。基准测试应该验证聚类算法的基本所需属性。大多数数据集来自聚类论文,例如:
ELKI附带了几个数据集(还要检查单元测试,它们包含的内容比网站上的要多得多,还有参数设置)。
它还包括一个相当灵活的数据生成器。