我对教育游戏进行研究,我目前的一些项目涉及使用BoardGameGeek (BGG) 和VideoGameGeek (VGG) 的数据来检查游戏设计元素之间的关系(即“二战背景”、“涉及掷骰子” ) 和这些游戏的玩家评分(即,满分 10 分)。这些设计元素中的每一个都与 BGG 或 VGG 系统中的一个标签相对应,因此每个元素本质上都是一个二分变量。游戏对数据库中存在的每个标签都有一个 1,对每个不存在的标签都有一个 0。
有几十个这样的标签,所以我想使用探索性因素分析(EFA) 来提出可管理数量的“流派”来捕捉游戏设计中的模式。咨询了几个来源,我了解到,由于我正在使用二分变量,所以在提出我的因素时,我应该使用多变量相关性(四变量,尤其是这里)而不是皮尔逊相关(还有其他选项,比如潜在特征分析——在那里,但这是我现在正在探索的)。
出于好奇,我想出了两组因子,一组使用 Pearson 相关,另一组使用多变量相关(每次使用相同数量的因子)。我的问题是,使用 Pearson 相关计算的因子比使用多变量相关计算的因子更有意义并且更容易解释。换句话说,第一组因素中的“类型”具有直观意义,并且与我对游戏通常设计方式的理解相对应;第二组因素并非如此。
一方面,我想确保我满足我正在使用的测试的假设,即使这会使我的结果不那么漂亮。另一方面,我觉得因子分析和(更广泛的)模型构建的部分目标是提出一些有用的东西,当我“打破规则”时,更有用的信息就会出现。对有用模型的需求是否足以超过违反此测试的假设?使用 Pearson 相关性而不是多色相关性的后果到底是什么?