使用分类变量进行因子分析的参考

机器算法验证 因子分析 序数数据
2022-04-09 14:45:09

我一直在用分类变量研究很多关于因子分析的东西。我对学习这么多pdf感到沮丧。我从 40 个问题中获得了 40 个变量。它们都是分类的。我可以把它们当作序数。问题不同,所以答案也不同。它不像李克特量表,例如,1 表示所有问题都很好,2 表示所有问题都中等,3 表示所有问题都不好等等。就像一个问题:

"How often do senior management visit the wards to talk to staff?"

rarely or never ..................... 1    
around once a year................... 2
around once a month.................. 3
around once a week................... 4

对于另一个问题:

"What is the average amount of training (per person) received by a management staff?"

Less than a day ..................... 1
Less than a week .................... 2
One to two weeks .................... 3

等等。

我想对这些变量进行因子分析:从这里可以看出,1、2、3 等的含义不同,每个问题的类别数量也不同。

另一个问题是我在数据中有无响应(缺失值)。

以下是我的问题:

  1. 用这种数据进行因子分析的实际和最佳方法是什么。此外,您能否就您建议的方法给我一个很好的参考?我会很感激你的帮助。
  2. 如果可能的话,还请告诉我如何处理缺失值。
  3. 我需要从分析中计算因子得分。我尝试过多色相关,但无法通过此获得因子分数。因子分数对我的分析非常重要。没有它们,我无法进行进一步的分析。

@this.is.not.a.nick:非常感谢您的善意建议。有人建议我也使用 CATPCA。但是如果使用多变量相关可以解决计算因子分数的问题,那就太好了。但是 Andrea、chl 和 ttnphns,能否请您确认我是使用载荷的主成分解和特定因子,fa.poly()还是fa.parallel.poly()factanal()命令一样使用最大似然法来估计这些参数?因为我不能假设数据是正态分布的,所以我想在这种情况下使用主成分方法来估计参数会很好。

如果这些功能不使用主成分解决方案,那么我想我可以在这里做一件事-

  1. 使用包 psych 计算多变量相关矩阵 r。

  2. 计算载荷

    f <- principal(r,nfactors=3,rotate="varimax",scores=T,residuals=T) #say, 3 factors taken
    l <- print(f$loadings[c(1:ncol(data)),],cutoff=.0001) #data means original data
    
  3. 计算分数

    h <- t(l)%*%l #communality
    s <- h%*%t(l) #as fhat_i=(L'L)^(-1)*L'*Z_i
    data1 <- t(data[1,])
    f1 <- s%*%data1 
    f1
    

因此,我可以从 Bartlett 的 PC 解决方案分数公式手动(参考:Johnson 和 Wichern 的应用多元统计分析)fii=1,,n

现在,为了实现这个过程,不应该有任何缺失值 (NA)。那么,如果我将缺失值设为 0,对于每个问题,这意味着“无评论”有什么问题吗?我认为它将充当我分类变量的另一类。由于变量是分类的,我认为我不应该取平均值或中位数。

我的想法是对的吗?请给我建议。如果可能的话,请给我发一份关于 Polychoric 与 Pearson 相关性的论文。我真的从你那里得到了很多帮助,并期待在我长大后做出贡献。

1个回答

我认为,就您而言,最好的方法是对多元相关矩阵进行因子分析。在 R 中,“psych”包允许您执行多变量因子分析(通过fa.poly命令)并计算因子分数。这里的文档这个网页可能很有用。

此外,“psych”包包含的fa.parallel.poly功能对于通过蒙特卡罗模拟选择要保留的最佳因子数量非常有用。

对于缺失值,您可以将它们排除在分析之外,也可以将它们替换为平均值或中值。

这是最近的一篇论文,证实了多因素分析的优越性:

Holgado–Tello, FC, Chacón–Moscoso, S., Barbero–García, I., & Vila–Abad E. (2010)。序数变量的探索性和验证性因素分析中的多色与皮尔逊相关性。质量和数量,44 (1) , 153-166。

在回答您的第二个问题时,主成分分析和因子分析不是一回事如果您的目标是简单地减少数据,那么主要成分就是选举技术。否则,如果您想探索问卷的潜在维度,则必须使用因子分析。在 PCA 中,分量来自变量(通过最大化方差),而在 FA 中是解释变量的因素,因此模式相反。据我所知,当您必须在两种方法之间进行选择时,这是唯一需要考虑的重要方面。

fa.poly进行 FA,您可以指定分解方法(GLS、WLS、PF...)。如果您想进行 PCA,我认为您可以使用principal,但提交分析的不是原始数据,而是多元相关矩阵。检查这些方面的“心理”文档,我从未做过分类主成分分析。