使用统计显着性检验验证聚类分析结果

机器算法验证 假设检验 聚类 统计学意义
2022-03-13 23:30:15

我正在调查使用统计显着性检验 (SST) 来验证聚类分析的结果。我找到了几篇关于这个主题的论文,比如

但我有兴趣找到一些认为 SST适合验证聚类分析结果的文献。我发现的唯一来源声称这是软件供应商的网页

澄清:

我有兴趣测试是否通过聚类分析发现了重要的聚类结构,因此,我想知道支持或驳斥“对探索性数据结果进行事后测试的可能性”的担忧的论文用于查找聚类的分析”。

我刚刚找到了 2003 年的一篇论文,即Milligan 和 Hirtle的“聚类和分类方法,例如,使用 ANOVA 将是无效的分析,因为数据没有随机分配给组。

2个回答

很明显,您不能(天真地)测试使用相同数据定义的组的分布差异。这被称为“选择性测试”、“双浸”、“循环推断”等。

例如,对数据中“高”和“矮”人的身高进行 t 检验。null 将(几乎)总是被拒绝。

话虽如此 - 确实可以解释测试阶段的聚类阶段。但是,我不熟悉这样做的特定参考,但我怀疑应该这样做。

我建议不要使用给定测试进行假设测试,而是建议使用自举方法或其他集群之间的汇总估计。例如,您可以依赖具有至少 1000 个样本的百分位引导程序。关键是对每个引导样本独立应用聚类。

这种方法将非常稳健,为差异提供证据,并支持您关于集群间显着差异的说法。此外,您可以生成另一个变量(例如集群间差异),并且此类差异变量的引导估计将类似于假设的正式检验。