在因子分析中计算二元变量的 Pearson 相关性(而不是四色相关性)有什么危险?

机器算法验证 r 分类数据 因子分析 二进制数据
2022-03-11 19:44:54

我对教育游戏进行研究,我目前的一些项目涉及使用BoardGameGeek (BGG) 和VideoGameGeek (VGG) 的数据来检查游戏设计元素之间的关系(即“二战背景”、“涉及掷骰子” ) 和这些游戏的玩家评分(即,满分 10 分)。这些设计元素中的每一个都与 BGG 或 VGG 系统中的一个标签相对应,因此每个元素本质上都是一个二分变量。游戏对数据库中存在的每个标签都有一个 1,对每个不存在的标签都有一个 0。

有几十个这样的标签,所以我想使用探索性因素分析(EFA) 来提出可管理数量的“流派”来捕捉游戏设计中的模式。咨询了几个来源,我了解到,由于我正在使用二分变量,所以在提出我的因素时,我应该使用变量相关性(变量,尤其是这里)而不是皮尔逊相关(还有其他选项,比如潜在特征分析——在那里,但这是我现在正在探索的)。

出于好奇,我想出了两组因子,一组使用 Pearson 相关,另一组使用多变量相关(每次使用相同数量的因子)。我的问题是,使用 Pearson 相关计算的因子比使用多变量相关计算的因子更有意义并且更容易解释。换句话说,第一组因素中的“类型”具有直观意义,并且与我对游戏通常设计方式的理解相对应;第二组因素并非如此。

一方面,我想确保我满足我正在使用的测试的假设,即使这会使我的结果不那么漂亮。另一方面,我觉得因子分析和(更广泛的)模型构建的部分目标是提出一些有用的东西,当我“打破规则”时,更有用的信息就会出现。对有用模型的需求是否足以超过违反此测试的假设?使用 Pearson 相关性而不是多色相关性的后果到底是什么?

1个回答

线性因子分析在理论上,逻辑上仅适用于连续变量如果变量不是连续的,但例如是二分的,那么您的一种方法是在后面承认潜在的连续变量并声明观察到的变量是分箱的基础变量或真实变量。如果没有多余的“导师”,您无法将二分变量量化为比例一,但您仍然可以推断出相关性,即如果您的变量尚未分类并且是“原始”连续正态分布。这是tetrachoric相关性(或多变量,如果你有序数变量代替二进制)。因此,使用四色相关性(推断的 Pearson 相关性)代替 Phi 相关性(观察到的 Pearson 相关性与二分数据)是一种合乎逻辑的行为。

在二分法分箱变量上计算的 Phi 相关性对分箱发生的切点(又称“任务难度级别”)非常敏感。一对变量可能希望达到理论界限r=1仅当它们在等效切割点上被分箱时。它们中的切点越不同,可能的最大界限越低r它们之间。(这是边际分布相同性对 Pearson 可能范围的一般影响r,但在二分变量中,这种影响最为明显,因为取值太少。)因此,由于二分变量的边际分布对比鲜明,矩阵中的 phi 相关性可以被视为不均等地缩小;您不知道一个相关性是否大于另一个“真正”的相关性,或者是由于这两对变量中的不同切点。要提取的因子数量(遵循诸如 Kaiser 的“特征值>1”之类的标准)将被夸大:一些提取的“因子”是不均匀性、分割点的多样性的结果,而不是实质性的潜在因素。这是为什么不使用 phi 相关性(至少以其原始 - 未重新缩放)形式的实际原因。

模拟/分箱研究中有证据表明,如果矩阵中存在许多强 (>0.7) 相关性,则基于四色相关性的因子分析会恶化。四柱相关性并不理想:如果相关基础变量的切点相反(因此二分法中的边际分布相反偏斜)而基础关联很强,则四柱系数会进一步高估它。另请注意,四色相关矩阵在样本量不大的情况下不一定是半正定的,因此可能需要校正(“平滑”)。尽管如此,许多人认为它比对普通 Pearson (phi) 系数进行因子分析更好。

但是为什么要对二进制数据进行因子分析呢?还有其他选项,包括潜在特征/ IRT(一种“逻辑”因子分析)和多重对应分析(如果您将二元变量视为名义类别)。

也可以看看: