我阅读了很多论文,这些论文使用许多非正态分布的数据集(如 iris 数据集)来测试 k-means,并获得了不错的结果。既然,我知道 k-means 用于正态分布的数据,为什么 k-means 用于非正态分布的数据?
例如,下面的论文根据正态分布曲线修改了 k-means 的质心,并用非正态分布的 iris 数据集测试了该算法。
几乎所有内点(准确地说是 99.73%)的点到质心距离都在总体平均值的 3 个标准差 (𝜎) 以内。
有什么我不明白的地方吗?
- 奥卢坎米和特瓦拉 (2017)。K-means-sharp:针对异常值鲁棒 k-means 聚类的修改质心更新
- 鸢尾花数据集