内核 k 均值和谱聚类之间有什么实际区别?

数据挖掘 聚类 k-均值 核心 谱聚类
2021-09-24 04:44:00

我最近一直想知道内核 k 均值和谱聚类算法及其差异。

  • 我知道谱聚类是一个更广泛的术语,不同的设置会影响它的工作方式,但一种流行的变体是在亲和矩阵的谱嵌入上使用 K-means 聚类

  • 另一方面,内核 K-means 将K-means 聚类直接应用于亲和矩阵因此,一个直接的、理论上的区别是它省略了谱嵌入步骤,即它不寻找具有特征向量的数据的低维表示。

我认为它在高维环境中可能是有益的(有许多观察要聚类),但它是否可以通过小样本量(例如从 10 到 20 个观察)提供任何提升?

使用这些算法中的任何一种与另一种相比,还有哪些实际意义(例如,哪一种对亲和力的任何变化等更敏感)?

1个回答

差异确实不是太大。2004 年 KDD 的 Inderjit S. Dhillon、Yuqiang Guan 和 Brian Kulis 发表了一篇名为 Kernel k-means, Spectral Clustering and Normalized Cuts的论文,讨论了这种关系。作者表明,归一化切割的谱聚类是加权核 k 均值的一个特例。原因是“图割问题和加权核 k-means 问题都可以写成迹最大化问题”。

他们写道

这具有重要意义:a)基于特征向量的算法,其计算量很大,对于最小化归一化切割不是必需的,b)各种技术,例如局部搜索和加速方案,可用于提高质量和速度内核 k 均值。

此外,他们结合了两者的想法以改善总体结果和

表明使用特征向量初始化内核 k-means 可以提供更好的初始和最终目标函数值以及更好的聚类结果。

关于谱聚类的稳健性,您可能需要查看 Aleksandar Bojchevski、Yves Matkovic、Stephan Günnemann 的Robust Spectral Clustering for Noisy Data,发表在 ACM SIGKDD 知识发现和数据挖掘会议 (KDD) 上,2017:https://www .kdd.org/kdd2017/papers/view/robust-spectral-clustering-for-noisy-data


Inderjit S. Dhillon, Yuqiang Guan, Brian Kulis, Kernel k-means:谱聚类和归一化切割,KDD '04:第十届 ACM SIGKDD 知识发现和数据挖掘国际会议论文集,2004 年 8 月,第 551-556 页,https ://doi.org/10.1145/1014052.1014118