如何计算变量组之间/内部的相关性?

机器算法验证 相关性 心理测量学
2022-01-18 16:47:09

我有一个包含 1000 个观察值和 50 个变量的矩阵,每个变量都以 5 分制进行测量。这些变量被组织成组,但每组中的变量数量并不相同。

我想计算两种相关性:

  1. 变量组内的相关性(特征之间):对变量组内的变量是否测量相同事物的某种度量。
  2. 变量组之间的相关性:假设每个组反映一个整体特征,衡量每个特征(组)如何与其他所有特征相关。

这些特征先前已被分类成组。我有兴趣找到组之间的相关性 - 即假设组内的特征正在测量相同的潜在特征(已完成上述#1 - Cronbach's alpha),这些特征本身是否相关?

有人对从哪里开始有建议吗?

4个回答

@rolando 的建议看起来像是一个好的开始,如果不是整个响应 (IMO)。让我继续遵循经典测试理论 (CTT) 框架的相关方法。在这里,正如@Jeromy 所指出的,您的一组特征的汇总度量可能被视为属于我现在称为量表的所有项目(用您的话来说是一个特征)的总分(或总和)。在 CTT 下,这使我们能够将个人“特征”倾向或责任形式化为反映潜在结构(潜在特征)的连续尺度上的一个人的位置,尽管这里它只是一个序数尺度(但这是心理测量学文献中的另一场争论) .

您所描述的与心理测量学中所谓的收敛性(属于同一量表的项目在多大程度上相互关联)和判别性(属于不同量表的项目不应在很大程度上相关)有效性有关。经典技术包括多特征多方法 (MTMM) 分析 (Campbell & Fiske, 1959)。下面显示了它如何工作的说明(三种方法或工具,三种构造或特征):

在此处输入图像描述

在这个 MTMM 矩阵中,对角线元素可能是 Cronbach 的 alpha 或重测类内相关性;这些是每个测量量表可靠性的指标。当使用不同的工具来评估相同的特征时,通过量表分数的相关性来评估假设(共享)结构有效性;如果这些工具是独立开发的,高相关性()将支持以一致和客观的方式定义特征的想法。此 MTMM 矩阵中的剩余单元格总结了方法内的特征之间以及方法之间的特征之间的关系。>0.7,并指示了用不同尺度测量独特构造的方式以及给定尺度中每个特征之间的关系。假设独立特征,我们通常不期望它们很高(推荐阈值),但可以进行更正式的假设检验(相关点估计)。一个微妙之处在于我们使用了所谓的“剩余相关性”,即我们在去除该项目对该量表总分的贡献后计算该项目(或特征)与其量表(或方法)之间的相关性(校正重叠)。<.3

即使这种方法最初是为了评估通过不同测量工具研究的某些特征的收敛效度和判别效度,它也可以应用于单一的多尺度工具。特征然后成为项目,方法只是不同的尺度。将此方法推广到单个仪器也称为多特征缩放与预期相关的项目(即,具有自己的规模而不是不同的规模)被视为扩展成功. 然而,我们通常假设不同的尺度不相关,即它们针对不同的假设结构。但是,平均尺度内和尺度间的相关性提供了一种总结仪器内部结构的快速方法。另一种方便的方法是对成对相关矩阵应用聚类分析,看看你的变量是如何联系在一起的。

值得注意的是,在这两种情况下,使用相关测量的常见警告都适用,即您无法考虑测量误差,您需要大样本,仪器或测试被假定为“平行”(tau 等效、不相关误差、相等的误差方差)。

@rolando 解决的第二部分也很有趣:如果没有理论上或实质性的迹象表明已经建立的项目分组是有意义的,那么您将必须找到一种方法来突出数据的结构,例如探索性因素分析. 但即使你相信那些“群体内的特征”,你也可以检查这是否是一个有效的假设。现在,您可能正在使用验证性因子分析模型来检查项目加载模式(项目与其自身规模的相关性)是否符合预期。

除了传统的因子分析方法,您还可以查看项目聚类 (Revelle, 1979),它依赖于 Cronbach 的基于 alpha 的拆分规则将项目组合成同质尺度。

最后一句话:如果您使用的是 R,有两个非常好的包可以简化上述步骤:

  • psych,为您提供开始使用心理测量学方法所需的一切,包括因子分析(fafa.parallelprincipal)、项目聚类(ICLUST和相关方法)、Cronbach's alpha ( alpha);William Revelle 的网站上有一个很好的概述,尤其是An Introduction to Psychometric theory with applications in R
  • psy,还包括碎石图(通过 PCA + 模拟数据集)可视化 ( scree.plot) 和 MTMM ( mtmm)。

参考

  1. Campbell, DT 和 Fiske, DW (1959)。通过多特征多方法矩阵进行收敛和判别验证。心理公报,56:81-105。
  2. Hays, RD 和 Fayers, P. (2005)。评估多项目量表。评估临床试验中的生活质量,(Fayers, P. 和 Hays, R., Eds.),第 41-53 页。牛津。
  3. Revelle, W. (1979)。层次聚类分析和测试的内部结构。多元行为研究,14:57-74。

我阅读您的术语的方式,您想要的是首先评估每组变量的内部一致性,然后评估构成每组变量平均值的量表分数之间的相关性。第一个可以使用 Cronbach's alpha 来完成,第二个可以使用 Pearson 相关性来完成。这假设您具有合理的正态分布和合理的线性关系。

一种更复杂但不一定是必需的方法是进行探索性因素分析。您将尝试确定哪些变量应该组合在一起,然后再次确定这些因素的相关程度。如果您尝试此方法,请确保使用倾斜旋转以显示这些相关性。是否使用主成分提取或主轴提取将分别取决于您的变量是客观的、无误差的测量值还是主观的变量,例如包含一定量误差的调查项目。

  • 至少在心理学中,在您的情况下,标准工具将是探索性和验证性因素分析,以评估项目间相关矩阵与一些提出的因素和项目之间关系模型的收敛性。您提出问题的方式表明您可能不熟悉这些文献。例如,这是我关于量表构建和因子分析的笔记,这是R 中关于因子分析表格 Quick-R 的教程因此,虽然值得回答您的具体问题,但我认为通过检查评估多项目、多因素量表的因素分析方法可以更好地满足您的更广泛目标。

  • 另一个标准策略是计算每组变量的总分(我称之为“量表”)并将量表关联起来。

  • 许多可靠性分析工具将报告平均项目间相关性。

  • 如果您创建了项目之间的 50 x 50 相关矩阵,则可以在 R 中编写一个函数,该函数根据变量组的组合对子集进行平均。如果您同时拥有正面和负面的项目,您可能无法得到您想要的,因为负相关可能会抵消正相关。

我建议使用相关概念来替代高斯模型中的互信息和集成概念,该概念仅用于成对定义。

在高斯模型中,一组变量的积分被定义为组的熵:G1

I1log(|C1|)

其中是变量组的相关矩阵。不难看出,如果仅由 2 个变量组成,则其积分为的成对相关系数直接相关C1G1G1log(1ρ2)ρ

要计算两组变量之间的交互作用,您可以使用互信息,这只是组之间的交叉熵:

MU12=I12I1I2

在快速谷歌之后,我找到关于这些概念的参考,这可能会有所帮助。