潜在类分析与聚类分析 - 推理的差异?

机器算法验证 聚类 潜变量 潜类
2022-02-12 14:19:47

潜在类别分析 (LCA) 与聚类分析在推断方面有何区别?LCA 假设产生类的潜在潜在变量是否正确,而聚类分析是聚类算法中相关属性的经验描述?似乎在社会科学中,LCA 已经获得了普及,并且由于它具有正式的卡方显着性检验而被认为在方法上更优越,而聚类分析则没有。

如果可以以这样的形式提供示例,那就太好了,“LCA 适用于此(但不适用于聚类分析),而聚类分析适用于此(但不适用于潜在类分析)。

谢谢!布赖恩

3个回答

潜在类分析实际上是一个有限混合模型(参见此处)。FMM 与其他聚类算法之间的主要区别在于,FMM 为您提供了一种“基于模型的聚类”方法,该方法使用描述数据分布的概率模型来派生聚类。因此,您无需使用任意选择的距离度量来查找集群,而是使用描述数据分布的模型,并基于该模型评估某些案例是某些潜在类别成员的概率。所以你可以说这是一种自上而下的方法(你从描述数据的分布开始),而其他聚类算法则是自下而上的方法(你会发现案例之间的相似之处)。

因为您使用统计模型进行数据模型选择和评估拟合优度是可能的 - 与聚类相反。此外,如果您假设有一些过程或“潜在结构”是数据结构的基础,那么 FMM 似乎是一个合适的选择,因为它们使您能够对数据背后的潜在结构进行建模(而不是仅仅寻找相似之处)。

另一个区别是 FMM 比集群更灵活。聚类算法只是做聚类,而有基于 FMM 和 LCA 的模型

  • 使您能够进行确认性的组间分析,
  • 将项目响应理论(和其他)模型与 LCA 相结合,
  • 包括协变量来预测个人的潜在类别成员资格,
  • 和/或什至潜在类回归中的集群内回归模型,
  • 使您能够对数据结构等随时间的变化进行建模。

有关更多示例,请参见:

Hagenaars JA & McCutcheon, AL (2009)。应用潜在类分析。剑桥大学出版社。

以及 R 中flexmixpoLCA包的文档,包括以下论文:

Linzer, DA 和 Lewis, JB (2011)。poLCA:用于多变量潜在类分析的 R 包。统计软件杂志,42(10),1-29。

Leisch, F. (2004)。Flexmix:有限混合模型和潜在玻璃回归的通用框架,R. Journal of Statistical Software, 11(8), 1-18。

Grün, B. 和 Leisch, F. (2008)。FlexMix 版本 2:具有伴随变量以及可变和恒定参数的有限混合统计软件杂志,28(4),1-35。

不同之处在于潜在类分析将使用隐藏数据(通常是特征中的关联模式)来确定类中特征的概率。然后可以使用最大似然进行推断,以根据项目的特征将项目分为几类。

聚类分析绘制特征并使用最近邻居、密度或层次结构等算法来确定项目所属的类别。

基本上,LCA 推理可以被认为是“使用概率最相似的模式是什么”,而聚类分析是“使用距离最接近的东西是什么”。

潜在类别模型(或潜在轮廓,或更一般地,有限混合模型)可以被认为是用于聚类(或无监督分类)的概率模型。目标通常是相同的——在更大的人口中识别同质群体。我认为潜在类模型和聚类算法方法之间的主要区别在于,前者显然有助于对聚类的性质进行更多的理论推测。并且因为潜在类模型是概率性的,它为通过似然统计评估模型拟合提供了额外的选择,并更好地捕捉/保留了分类中的不确定性。

您可能会在此线程中找到一些有用的花絮,以及 chl 的相关帖子中的此答案

这个关于 PCA 与因子分析的问题也有相似之处(在概念层面上),还有这个问题