寻找 2D 人工数据来展示聚类算法的属性

机器算法验证 分布 数据可视化 聚类 数据集
2022-03-09 04:41:39

我正在寻找遵循不同分布和形式的二维数据点的数据集(每个数据点是两个值 (x,y) 的向量)。生成此类数据的代码也会有所帮助。我想用它们来绘制/可视化一些聚类算法的执行方式。这里有些例子:

4个回答

R带有很多数据集,用几行代码重现您引用的大多数示例似乎没什么大不了的。您可能还会发现mlbench包很有用,尤其是以 . 开头的合成数据集mlbench.*下面给出了一些插图。

在此处输入图像描述

您可以通过查看 CRAN 上的集群任务视图找到更多示例。例如,fpc包有一个内置的“脸形”集群基准数据集生成器(rFace)。

在此处输入图像描述

类似的考虑适用于 Python,您会在其中找到有趣的基准测试和数据集,用于使用scikit-learn进行聚类。

UCI 机器学习存储库也托管大量数据集,但您最好使用您选择的语言自己模拟数据。

以下是一些专门为此任务设计的数据集:

Ultsch 的基本聚类问题套件

这个玩具聚类基准包含各种 ARFF 格式的数据集(可以很容易地转换为 CSV),大部分带有真实标签。基准测试应该验证聚类算法的基本所需属性。大多数数据集来自聚类论文,例如:

  • BIRCH - Zhang、Tian、Raghu Ramakrishnan 和 Miron Livny。“BIRCH:一种适用于超大型数据库的高效数据聚类方法。” ACM SIGMOD 记录。卷。25. 第 2 期,ACM,1996 年。
  • CURE - Guha、Sudipto、Rajeev Rastogi 和 Kyuseok Shim。“CURE:大型数据库的高效聚类算法。” ACM SIGMOD 记录。卷。27. 第 2 期,ACM,1998 年。
  • 变色龙- Karypis、George、Eui-Hong Han 和 Vipin Kumar。“变色龙:使用动态建模的层次聚类。” 计算机 32.8(1999):68-75。
  • 基本聚类问题套件- Ultsch,A.:使用 SOM 进行聚类:U*C,In Proc。自组织地图研讨会,法国巴黎,(2005 年),第 75-82 页
  • MOCK - Handl、Julia 和 Joshua Knowles。“多目标聚类的进化方法。” 进化计算,IEEE Transactions on 11.1 (2007): 56-76。
  • 稳健的基于路径的谱聚类——Chang、Hong 和 Dit-Yan Yeung。“稳健的基于路径的谱聚类。” 模式识别 41.1 (2008): 191-203。

卡里皮斯数据 数据

ELKI附带了几个数据集(还要检查单元测试,它们包含的内容比网站上的要多得多,还有参数设置)。

它还包括一个相当灵活的数据生成器。