我最近一直想知道内核 k 均值和谱聚类算法及其差异。
我知道谱聚类是一个更广泛的术语,不同的设置会影响它的工作方式,但一种流行的变体是在亲和矩阵的谱嵌入上使用 K-means 聚类。
另一方面,内核 K-means 将K-means 聚类直接应用于亲和矩阵。因此,一个直接的、理论上的区别是它省略了谱嵌入步骤,即它不寻找具有特征向量的数据的低维表示。
我认为它在高维环境中可能是有益的(有许多观察要聚类),但它是否可以通过小样本量(例如从 10 到 20 个观察)提供任何提升?
使用这些算法中的任何一种与另一种相比,还有哪些实际意义(例如,哪一种对亲和力的任何变化等更敏感)?