似乎有两种情况需要考虑,具体取决于您的量表是否已经使用标准心理测量方法(来自经典测试或项目反应理论)进行了验证。在下文中,我将考虑第一种情况,即我假设初步研究已经证明了你的量表的结构效度和得分信度。
在这种情况下,没有正式需要应用探索性因子分析,除非您想检查每个组内的模式矩阵(但我通常这样做,只是为了确保没有项目意外突出低因子负载或交叉-加载到不同的因素上);为了能够汇集所有数据,您需要使用多组因子分析(因此,正如您所建议的那样,这是一种确认方法),这基本上相当于添加额外的参数来测试组对因子加载的影响(一阶模型)或因子相关性(二阶模型,如果这有意义的话),这将影响受访者子组之间的测量不变性。这可以使用Mplus (参见那里关于 CFA 的讨论)或Mx(例如康纳等人。, 2009),不确定Amos,因为它似乎仅限于简单的因子结构。Mx 软件经过重新设计,可在 R 环境OpenMx中工作。wiki 反应良好,因此您可以在遇到困难时提出问题。还有一个更新的包lavaan,它似乎是 SEM 很有前途的包。
也可以考虑来自 IRT 的替代模型,包括潜在回归 Rasch 模型(对于每个尺度分别参见 De Boeck 和 Wilson,2004 年)或多元混合 Rasch 模型(von Davier 和 Carstensen,2007 年)。您可以查看完全致力于 R 中的心理测量学的Journal of Statistical Software的第 20 卷,以获取有关使用 R 进行 IRT 建模的更多信息。不过,您可能能够使用结构方程建模进行类似的测试。
如果两个组的因子结构证明是相等的,那么您可以汇总分数(在您的四个总和量表上)并照常报告您的统计数据。但是,使用 CFA 始终是一项具有挑战性的任务,因为不拒绝 H0 并不意味着您可以检查您假设的理论模型在现实世界中是否正确,只是没有理由基于统计理由拒绝它;另一方面,拒绝 null 将导致接受替代方案,这通常未指定,除非您应用嵌套模型的顺序测试。无论如何,这是我们在跨文化环境中采用的方式,尤其是当我们想要评估给定问卷(例如,关于患者报告的结果)是否衡量它声称要做什么,无论它被管理的人群。
现在,关于两组之间的明显差异——一个来自学生群体,另一个是临床样本,稍后评估——这在很大程度上取决于你自己的考虑:这两个样本是否混合从使用的问卷的文献来看是有道理的(特别是,它应该在广泛的人群中显示出时间稳定性和适用性),您是否打算将您的发现推广到更大的人群(显然,您通过增加样本量来获得权力)。乍一看,我想说的是,您需要确保两组在被认为会影响该问卷得分的特征(例如,性别、年龄、SES、生物医学史等)方面具有可比性,这可以是使用经典统计数据进行两组比较(原始分数)。知道组效度。
参考:
- De Boeck, P. 和 Wilson, M. (2004)。解释性项目响应模型。广义线性和非线性方法。施普林格。
- von Davier, M. 和 Carstensen, CH (2007)。多元和混合分布 Rasch 模型。施普林格。