聚类分析和判别分析

机器算法验证 聚类 判别分析
2022-03-26 02:58:44

正如我在文献中不时看到的那样(主要是关于精神障碍的临床亚型),对像 k-means 这样的聚类算法的结果使用判别分析 (DA) 的基本原理是什么?

通常不建议测试集群构建期间使用的变量的组差异,因为它们支持类间(或类内)惯性的最大化(或最小化)。因此,我不确定完全理解预测 DA 的附加价值,除非我们寻求将个体嵌入到较低维度的阶乘空间中并了解这种分区的“普遍性”。但即使在这种情况下,聚类分析基本上仍然是一种探索性工具,因此使用这种方式计算的类成员关系来进一步推导评分规则乍一看似乎很奇怪。

对相关论文有任何建议、想法或指示吗?

1个回答

我不知道有这方面的论文。出于描述目的,我使用了这种方法。DFA 提供了一种很好的方法来总结与原始变量相关的组差异和维度。人们可能更容易只对原始变量上的组进行剖析,但是,这失去了聚类问题固有的多变量性质。DFA 允许您描述组,同时保持问题的多变量特征不变。因此,它可以帮助解释集群,这是一个目标。当您的聚类方法和分类方法(例如 DFA 和 Ward 方法)之间存在密切关系时,这尤其理想。

您对测试问题是正确的。我发表了一篇使用带有 DFA 后续的聚类分析的论文来描述聚类解决方案。我展示了没有测试统计的 DFA 结果。一位审稿人对此提出了质疑。我承认并将测试统计数据和 p 值放在那里,并声明这些 p 值不应以传统方式解释。