我一直在用分类变量研究很多关于因子分析的东西。我对学习这么多pdf感到沮丧。我从 40 个问题中获得了 40 个变量。它们都是分类的。我可以把它们当作序数。问题不同,所以答案也不同。它不像李克特量表,例如,1 表示所有问题都很好,2 表示所有问题都中等,3 表示所有问题都不好等等。就像一个问题:
"How often do senior management visit the wards to talk to staff?"
rarely or never ..................... 1
around once a year................... 2
around once a month.................. 3
around once a week................... 4
对于另一个问题:
"What is the average amount of training (per person) received by a management staff?"
Less than a day ..................... 1
Less than a week .................... 2
One to two weeks .................... 3
等等。
我想对这些变量进行因子分析:从这里可以看出,1、2、3 等的含义不同,每个问题的类别数量也不同。
另一个问题是我在数据中有无响应(缺失值)。
以下是我的问题:
- 用这种数据进行因子分析的实际和最佳方法是什么。此外,您能否就您建议的方法给我一个很好的参考?我会很感激你的帮助。
- 如果可能的话,还请告诉我如何处理缺失值。
- 我需要从分析中计算因子得分。我尝试过多色相关,但无法通过此获得因子分数。因子分数对我的分析非常重要。没有它们,我无法进行进一步的分析。
@this.is.not.a.nick:非常感谢您的善意建议。有人建议我也使用 CATPCA。但是如果使用多变量相关可以解决计算因子分数的问题,那就太好了。但是 Andrea、chl 和 ttnphns,能否请您确认我是使用载荷的主成分解和特定因子,fa.poly()还是fa.parallel.poly()像factanal()命令一样使用最大似然法来估计这些参数?因为我不能假设数据是正态分布的,所以我想在这种情况下使用主成分方法来估计参数会很好。
如果这些功能不使用主成分解决方案,那么我想我可以在这里做一件事-
使用包 psych 计算多变量相关矩阵 r。
计算载荷
f <- principal(r,nfactors=3,rotate="varimax",scores=T,residuals=T) #say, 3 factors taken l <- print(f$loadings[c(1:ncol(data)),],cutoff=.0001) #data means original data计算分数
h <- t(l)%*%l #communality s <- h%*%t(l) #as fhat_i=(L'L)^(-1)*L'*Z_i data1 <- t(data[1,]) f1 <- s%*%data1 f1
因此,我可以从 Bartlett 的 PC 解决方案分数公式手动,(参考:Johnson 和 Wichern 的应用多元统计分析)
现在,为了实现这个过程,不应该有任何缺失值 (NA)。那么,如果我将缺失值设为 0,对于每个问题,这意味着“无评论”有什么问题吗?我认为它将充当我分类变量的另一类。由于变量是分类的,我认为我不应该取平均值或中位数。
我的想法是对的吗?请给我建议。如果可能的话,请给我发一份关于 Polychoric 与 Pearson 相关性的论文。我真的从你那里得到了很多帮助,并期待在我长大后做出贡献。