Stata中的Polychoric PCA和组件加载

机器算法验证 相关性 主成分分析 分类数据 状态 序数数据
2022-03-18 02:02:18

我正在使用 Stata 12.0,并且我已经下载了polychoricpcaStas Kolenikov 编写的命令,我想将其用于包含分类变量和连续变量的混合数据。考虑到变量的数量(大约 25 个),我的直觉是我需要生成 3 个以上的组件。最终,我想生成一些有意义的组件(而不是几十个变量),并将这些组件用作逻辑回归中的自变量。

使用polychoricpca,我可以生成一个表,其中仅显示前三 (3) 个分量的每个变量的特征值和特征向量(载荷)。polychoricpca似乎将这些载荷称为“评分系数”并为变量的每个级别生成这些,这样如果变量具有三个类别,您将看到该变量的三个评分系数(“载荷”)。以前从未使用过多色 PCA,我习惯于每个变量/项目只看到一个加载。我想检查这些系数(“载荷”),以尝试了解组件是什么以及如何标记它们。

我的问题:

(1) 如果看起来我应该生成 4 个组件怎么办?似乎我无法检查和理解第 4 个组件是什么,因为我看不到每个项目如何加载到第 4 个组件上,只有前 3 个。有没有办法查看每个项目是如何加载的负载超过前三个组件?

(2)我可以简单地使用多变量相关矩阵结合Stata的pcamat命令来检查每个项目如何加载到每个组件上(特征向量表)。如果我有超过 3 个组件,我认为这可能是一种能够检查负载的方法。这个想法来自这个 UCLA stats help post on using factormata polychoric correlation matrix。pcamat然而,在 Stata 中,每个变量只产生 1 个载荷(系数),而不是为变量的每个级别产生 1 个载荷。关于仅报告单个加载是否合适的任何想法pcamat

1个回答

尽管您可以将所有分数存储在变量中,但您无法显示所有分数的权重。但由于它们对于组件的有意义解释很重要,您可以使用包含分数的生成变量来获取权重。