潜在类别分析 (LCA) 与聚类分析在推断方面有何区别?LCA 假设产生类的潜在潜在变量是否正确,而聚类分析是聚类算法中相关属性的经验描述?似乎在社会科学中,LCA 已经获得了普及,并且由于它具有正式的卡方显着性检验而被认为在方法上更优越,而聚类分析则没有。
如果可以以这样的形式提供示例,那就太好了,“LCA 适用于此(但不适用于聚类分析),而聚类分析适用于此(但不适用于潜在类分析)。
谢谢!布赖恩
潜在类别分析 (LCA) 与聚类分析在推断方面有何区别?LCA 假设产生类的潜在潜在变量是否正确,而聚类分析是聚类算法中相关属性的经验描述?似乎在社会科学中,LCA 已经获得了普及,并且由于它具有正式的卡方显着性检验而被认为在方法上更优越,而聚类分析则没有。
如果可以以这样的形式提供示例,那就太好了,“LCA 适用于此(但不适用于聚类分析),而聚类分析适用于此(但不适用于潜在类分析)。
谢谢!布赖恩
潜在类分析实际上是一个有限混合模型(参见此处)。FMM 与其他聚类算法之间的主要区别在于,FMM 为您提供了一种“基于模型的聚类”方法,该方法使用描述数据分布的概率模型来派生聚类。因此,您无需使用任意选择的距离度量来查找集群,而是使用描述数据分布的模型,并基于该模型评估某些案例是某些潜在类别成员的概率。所以你可以说这是一种自上而下的方法(你从描述数据的分布开始),而其他聚类算法则是自下而上的方法(你会发现案例之间的相似之处)。
因为您使用统计模型进行数据模型选择和评估拟合优度是可能的 - 与聚类相反。此外,如果您假设有一些过程或“潜在结构”是数据结构的基础,那么 FMM 似乎是一个合适的选择,因为它们使您能够对数据背后的潜在结构进行建模(而不是仅仅寻找相似之处)。
另一个区别是 FMM 比集群更灵活。聚类算法只是做聚类,而有基于 FMM 和 LCA 的模型
有关更多示例,请参见:
Hagenaars JA & McCutcheon, AL (2009)。应用潜在类分析。剑桥大学出版社。
以及 R 中flexmix和poLCA包的文档,包括以下论文:
Linzer, DA 和 Lewis, JB (2011)。poLCA:用于多变量潜在类分析的 R 包。统计软件杂志,42(10),1-29。
Leisch, F. (2004)。Flexmix:有限混合模型和潜在玻璃回归的通用框架,R. Journal of Statistical Software, 11(8), 1-18。
Grün, B. 和 Leisch, F. (2008)。FlexMix 版本 2:具有伴随变量以及可变和恒定参数的有限混合。统计软件杂志,28(4),1-35。
不同之处在于潜在类分析将使用隐藏数据(通常是特征中的关联模式)来确定类中特征的概率。然后可以使用最大似然进行推断,以根据项目的特征将项目分为几类。
聚类分析绘制特征并使用最近邻居、密度或层次结构等算法来确定项目所属的类别。
基本上,LCA 推理可以被认为是“使用概率最相似的模式是什么”,而聚类分析是“使用距离最接近的东西是什么”。