聚类方法种类繁多,本质上是探索性的,我不认为它们中的任何一种,无论是基于分层的还是基于分区的,都依赖于分析方差时必须满足的那种假设。
查看 Stata 中的 [MV] 文档以回答您的问题,我在第 85 页发现了这个有趣的引用:
尽管有人说有多少人进行聚类分析,就有多少聚类分析方法。这是一个严重的轻描淡写!执行聚类分析的方法比执行它们的人要多得多。
在这种情况下,我怀疑是否有任何假设适用于聚类方法。文本的其余部分只是作为一般规则列出,您需要某种形式的“差异度量”,甚至不需要是度量距离,以创建集群。
但是,有一个例外,即当您将观察结果聚类为后估计分析的一部分时。在 Stata 中,该vce
命令带有以下警告,位于同一来源的第 86 页:
如果您熟悉 Stata 的大量估计命令,请注意区分聚类分析(cluster 命令)和许多估计命令允许的 vce(cluster clustvar) 选项。聚类分析在数据中查找组。各种估计命令允许的 vce(cluster clustvar) 选项表明观察值在选项定义的组之间是独立的,但在这些组中不一定是独立的。cluster 命令生成的分组变量很少满足使用 vce(cluster clustvar) 选项背后的假设。
基于此,我假设在该特定情况之外不需要独立观察。直觉上,我想补充一点,聚类分析甚至可以用于探索观察结果独立与否的精确目的。
最后,我将提到,在Stata 统计的第 356 页,Lawrence Hamilton 提到标准化变量是聚类分析的“基本”方面,尽管他没有更深入地讨论这个问题。