图扩散/热核与谱聚类之间的理论联系

机器算法验证 聚类 图论 特征值 光谱分析 扩散
2022-03-10 05:06:03

Graph 的图扩散核是其拉普拉斯算子的指数exp(βL)(或类似的表达式,具体取决于您如何定义内核)。如果您在某些顶点上有标签,则可以通过添加内核贡献的多数票在其余顶点上获得标签。在谱聚类中,拉普拉斯算子的最大特征值的特征向量分量的符号决定了顶点的类别分配。由于这些技术似乎在基于图拉普拉斯算子做类似的事情,光谱聚类和扩散或热核之间是否存在联系?在某些假设下,一个是另一个的概括吗?

更新:

  1. 所以Saerens 等人的论文“图的主成分分析及其与谱聚类的关系” 。似乎对此有所说明。他们说扩散核的一种形式(欧几里得通勤时间距离)与一种光谱聚类相同。

  2. Nadler 等人的论文“Diffusion Maps, Spectral Clustering and Eigenfunctions of Fokker-Planck Operators”还有一个我还没有解析的结果。

  3. 根据Zhan 和 Hancock的“Graph Spectrum image smoothing using the heat kernel”,我们可以观察到,如果L=USUT, (和U作为特征向量和S特征值的对角矩阵)和H=exp(βL), 然后H=Uexp(βS)UT. 所以对于一些β我们只需要取最小的特征值就可以得到近似值H.

注意:交叉发布在Math.SE上。

1个回答

是的,确实存在,这个链接是非常相关的降维技术的基础,称为Diffusion Maps

实际上,它是使用随机游走归一化拉普拉斯算子(与标准图拉普拉斯算子或对称拉普拉斯算子相反)对拉普拉斯特征图/光谱聚类的推广。

泛化来自首先根据以下对拉普拉斯算子进行归一化α(即在数据上生成可逆马尔可夫链):

L(α)=DαLDα

在构建随机游走归一化拉普拉斯算子之前:

M=(D(α))1L(α)

在哪里D(α)是度矩阵L(α).

标准化步骤α引入是为了“调整数据点密度对扩散的无穷小转变的影响”。

环境α=1近似于 Neumann 热核(完整推导参见 [1])。

环境α=0恢复拉普拉斯特征图方法。


1. Diffusion Maps (2006) - 提出该方法的原始论文。
2. Fokker-Planck 算子的扩散图、谱聚类和特征函数