机器算法验证 - 聚类分析的假设 - 吾爱随笔录

聚类分析的假设

机器算法验证聚类假设

2022-01-28 23:08:19

为这个基本问题道歉，我是这种分析形式的新手，到目前为止对这些原则的理解非常有限。

我只是想知道多变量/单变量测试的许多参数假设是否适用于聚类分析？我读过的关于聚类分析的许多信息来源都没有说明任何假设。

我对观察独立性的假设特别感兴趣。我的理解是，违反这一假设（例如在 ANOVA 和 MAVOVA 中）是严重的，因为它会影响对误差的估计。从我目前的阅读来看，聚类分析似乎在很大程度上是一种描述性技术（仅涉及某些特定情况下的统计推断）。因此，是否需要独立性和正态分布数据等假设？

任何讨论此问题的文本建议将不胜感激。非常感谢。

4个回答

好吧，聚类技术不仅限于基于距离的方法，在这种方法中，我们在几何意义上寻找彼此异常接近的统计单元组。还有一系列依赖于密度（簇被视为特征空间中的“区域”）或概率分布的技术。

后一种情况也称为基于模型的聚类；心理测量学家使用术语潜在轮廓分析来表示有限混合模型的这种特定情况，我们假设总体由不同的未观察到的组或潜在类别组成，并且所有显式变量的联合密度是此类的混合-比重。Mclust包或Mplus软件中提供了良好的实现。可以使用不同的类不变协方差矩阵（事实上，Mclust 使用 BIC 标准来选择最优的，同时改变集群的数量）。

标准潜在类模型还假设观察到的数据来自 g 个多元多项分布的混合。Gilles Celeux在基于模型的聚类分析：防御中提供了一个很好的概述。

由于这些方法依赖于分布假设，这也使得使用正式测试或拟合优度指数来确定聚类或类的数量成为可能，这在基于距离的聚类分析中仍然是一个难题，但请参阅以下文章讨论了这个问题：

Handl, J.、Knowles, J. 和 Kell, DB (2005)。后基因组数据分析中的计算集群验证。生物信息学，21（15），3201-3212。
Hennig, C. (2007) 集群稳定性的集群评估。计算统计和数据分析，52，258-271。
Hennig, C. (2008) 溶出点和隔离稳健性：一般聚类分析方法的稳健性标准。多元分析杂志，99，1154-1176。

聚类方法种类繁多，本质上是探索性的，我不认为它们中的任何一种，无论是基于分层的还是基于分区的，都依赖于分析方差时必须满足的那种假设。

查看 Stata 中的 [MV] 文档以回答您的问题，我在第 85 页发现了这个有趣的引用：

尽管有人说有多少人进行聚类分析，就有多少聚类分析方法。这是一个严重的轻描淡写！执行聚类分析的方法比执行它们的人要多得多。

在这种情况下，我怀疑是否有任何假设适用于聚类方法。文本的其余部分只是作为一般规则列出，您需要某种形式的“差异度量”，甚至不需要是度量距离，以创建集群。

但是，有一个例外，即当您将观察结果聚类为后估计分析的一部分时。在 Stata 中，该vce命令带有以下警告，位于同一来源的第 86 页：

如果您熟悉 Stata 的大量估计命令，请注意区分聚类分析（cluster 命令）和许多估计命令允许的 vce(cluster clustvar) 选项。聚类分析在数据中查找组。各种估计命令允许的 vce(cluster clustvar) 选项表明观察值在选项定义的组之间是独立的，但在这些组中不一定是独立的。cluster 命令生成的分组变量很少满足使用 vce(cluster clustvar) 选项背后的假设。

基于此，我假设在该特定情况之外不需要独立观察。直觉上，我想补充一点，聚类分析甚至可以用于探索观察结果独立与否的精确目的。

最后，我将提到，在Stata 统计的第 356 页，Lawrence Hamilton 提到标准化变量是聚类分析的“基本”方面，尽管他没有更深入地讨论这个问题。

空间聚类分析使用地理参考观测，是聚类分析的一个子集，不限于探索性分析。

示例 1

它可以用来建立公平的选举区。

示例 2

局部空间自相关度量用于AMOEBA聚类方法。Aldstadt 和 Getis 使用生成的聚类来创建空间权重矩阵，该矩阵可以在空间回归中指定以检验假设。

请参阅 Aldstadt、Jared 和 Arthur Getis (2006) “使用 AMOEBA 创建空间权重矩阵并识别空间集群”。地理分析 38(4) 327-343

示例 3

基于给定一组标准的随机增长区域的聚类分析可以用作一种概率方法，以表明机构区域（如学校出勤区或选举区）设计中的不公平性。

聚类分析本身不涉及假设检验，而实际上只是用于探索性分析的不同相似性算法的集合。您可以在一定程度上强制进行假设检验，但结果通常不一致，因为集群更改对参数的更改非常敏感。

http://support.sas.com/documentation/cdl/en/statug/63033/HTML/default/viewer.htm#statug_introclus_sect010.htm

其它你可能感兴趣的问题

上一篇如何将哈希统一投影到固定数量的桶中下一篇从 PCA/FA 中保留的几个主成分或因子创建单个索引