k-means 聚类对高维数据的有用性

机器算法验证 聚类 k-均值
2022-03-24 06:49:46

我想知道 k-means 聚类在高维空间中有什么用处,以及为什么在处理高维空间时它比其他聚类方法更好(或不更好)。

1个回答

k-means 是否有意义?

例如,请参阅我的答案:https ://stats.stackexchange.com/a/35760/7828

k-means 优化方差。未加权的方差总和对您的数据集有意义吗?可能不是。那么k-means怎么可能有意义呢?在高维数据中,距离不起作用。但是方差=平方欧几里得距离;那么优化一些你知道它在高维数据中不起作用的东西有意义吗?

针对高维数据的特殊问题,我推荐以下研究:

Zimek, A.、Schubert, E. 和 Kriegel, H.-P。(2012),高维数值数据中无监督异常值检测的调查。统计分析数据挖掘,5:363-387。doi: 10.1002/sam.11161

它的主要重点是异常值检测,但对高维数据挑战的观察适用于更广泛的背景。他们展示了一些简单的实验,高维数据如何成为问题。我喜欢这项研究的地方在于,它们还表明高维数据很容易;它不是黑白的,但您需要仔细研究您的数据。

有用的就不一样了。人们经常使用 k-means 来实际发现集群。

而是要找到有代表性的对象。这是一种对不太相似而无用的 k 对象进行半随机采样的巧妙方法

如果您只需要一种巧妙的采样方式,k-means 可能非常有用。