BIC 或 AIC 来确定无标度图中的最佳集群数?

机器算法验证 聚类 aic 图论 比克
2022-04-14 03:03:16

我目前正在尝试将无标度(“大”)图(大约 20k 顶点,500k 边)划分为适当的子图。在推导出图的拉普拉斯算子后,我尝试运行一种基于谱间隙和 Fiedler-vector 的方法,然而,并不出人意料的是,大多数情况下顶点估值(即相应特征向量的分量)接近于零节点。显然,图中没有明显的切割。

尽管如此,即使只是为了表明几种方法在遵循我正在研究的光谱特征的图上失败,我还是想进一步探索光谱聚类方法——其中一些需要一个固定的 k 来表示分区。

我知道在 k-means-clustering 方面使用 BIC 和 AIC。我感兴趣的是,这些标准是否也用于谱图聚类领域?是否有任何理由允许在图谱和 BIC 和 AIC 等模型选择标准之间建立联系?

非常感谢任何输入!


补充:

所以,我进行了一些测试。我已经尝试了 RSB 与截止值 c 的中位数。我使用高证据(低误报率,可能高误报率)集群数据来验证(大约 250 个非重叠组),以一种相当“穷人”的方式,所以没有什么特别的。最初的削减已经影响了超过 235 个集群,尽管其中许多实际上相当小(我们在这里谈论的是平均约 75 个)。我尝试通过 MAD 偏离中位数(朝向绝对值最高的估值),这也导致了糟糕的表现。经过进一步的尝试,我最终选择了估值分布的第 1 或第 3 分位数,这允许进行一些较小且相当微不足道的削减。尽管如此,

为了计算它们,我使用了 ARPACK (IRLM),所以我希望结果在双精度方面相当准确。这是前 2 次迭代(都产生 2 个集群,每个集群大约 36 个节点)之后的特征估值图(log2,只是快速和肮脏) - 核心似乎太密集了。

运行0 运行1

我考虑过至少购买范仲最近关于谱聚类(spectral clustering)的书,因为我喜欢阅读之前的作品(至少前两章)。它们干到骨子里,但仍然提供了很多信息。

1个回答

AIC 和 BIC 用于限制竞争解释相同数据的一系列模型的复杂性。紧随复杂性理论和机器学习的结果之后,有理由相信,在某些情况下,使用这些复杂性代理可以提供有关模型的有用信息,这些信息可以最好地解释数据,同时具有最小的泛化误差。

在这种情况下,您首先需要提出一些模型来生成您所看到的图谱。您可以假设产生您看到的图形的一些不同组件,例如混合模型。

例如,如果您正在使用来自比利时的通用电话数据集(在说法语的人和说荷兰语的人之间有一个微不足道的划分),您需要假设该机制(与地区相关的语言偏好或某些东西)实际上导致了图表的两个不同部分。

然后,一旦您有了模型,您就可以使用 AIC 或 BIC 作为优化参数选择的一种方法,以便将该模型与您观察到的图形数据进行拟合。如果您在模型中包含不同因果集群的数量,那么您的优化例程将在 AIC 或 BIC 约束下吐出。

但这与归一化切割并不是一回事,归一化切割并不能完全模拟图的任何内容。归一化切割(和其他光谱分割方法)提出了一个成本函数,它可能与图的任何内容相关,也可能不相关,然后进行切割以最小化成本。

如果分割方法使用的成本函数与生成图表的数据生成过程的各个方面没有有意义的对应,那么分割性能可能会非常糟糕。正如您所说,这就是为什么必须谨慎使用一刀切的图形切割程序的原因,并仔细考虑成本函数对您的数据意味着什么。

我有这方面的一些资料,今晚晚些时候我会回来并记录下来。