对调查问题的“轮换”子集进行因子分析

机器算法验证 分类数据 采样 因子分析 缺失数据
2022-03-25 17:04:29

为了帮助开发调查工具,我想对 50-100 个调查问题池进行探索性因素分析。(我愿意讨论这是否是该项目的最佳策略,但为了保持这个问题的范围合理,我们假设这实际上是一个合理的做法。)我预计会恢复大约四到八个因素。

由于管理调查的后勤工作,我宁愿管理随机选择的 20-30 个问题的子集,而不是整个问题。使用标准统计软件,对这将产生的数据类型进行 EFA 是否仍然合理?还是我需要对每个受访者进行整个调查以使其发挥作用?

3个回答

由于设计包含计划缺失,因此可以假设数据完全随机缺失,并且可以采用插补程序来处理缺失数据。如果您真的不知道项目应该如何加载/要提取的因子数量,我会选择此选项,因为在计划的缺失设计中缺失往往非常高,只需执行列表或成对删除之类的操作。

如果您对因素的数量和项目应加载的位置有所了解,另一种选择是使用更具探索性的 CFA。在这种情况下,SEM 使用全信息最大似然估计来充分处理缺失数据。如果您选择此选项,请记住,拟合指数往往会人为地显示拟合度越高,您的缺失越多。更多信息在这里

EFA 基于项目之间的协方差。如果项目在数据集中得到很好的表示,那么在估计因子负载等时应该没问题。如果您有许多参与者完成大量少数随机项目,那么您的数据应该很好地表示可能的项目组合。因此,这看起来类似于您只让参与者完成所有项目。一个问题是仅完成某些项目(或特定子集)如何影响响​​应模式,但我不认为这是一个重大问题。可以肯定的是一种非正统的方法,但我想不出一个突出的批评(我会被纠正并被否决,这可能很快就会发生......)。

这基本上就像在大量缺失数据的情况下进行 EFA,不是吗?它仍然有效,但是您需要比平时更多的参与者,因为每个人都没有完成所有事情。

这种方法让我想起了很多合成孔径人格评估(SAPA)你可能想进一步阅读它,看看你能从这个方法中学到什么,并判断它与你的想法有多相似。如果它对于您的目的足够等效,那么这个消息似乎是好的。这个页面说:

5)对于某些应用,数据矩阵是通过为不同的人采样不同的项目而综合组合的。所谓的合成孔径个性评估 (SAPA) 技术允许形成大的相关性或协方差矩阵,即使没有人拿走所有项目。为了分析这样的数据集,很容易根据项目的协方差矩阵而不是原始数据集来形成项目组合。然后可以使用许多函数(例如,cluster.cor、factor.pa、ICLUST、principal、mat.regress 和 factor2cluster)来分析这些矩阵。