从 PCA/FA 中保留的几个主成分或因子创建单个索引

机器算法验证 主成分分析 因子分析 评分 合成的 规模建设
2022-02-09 23:11:35

我正在使用主成分分析 (PCA) 创建我的研究所需的索引。我的问题是我应该如何使用通过 PCA 计算的保留主成分来创建单个索引。

例如,我决定在使用 PCA 后保留 3 个主成分,并计算这 3 个主成分的分数。为每位受访者创建这 3 个分数中的单个索引的适当方法是什么?

  • 将 3 个计算分数相加以获得复合值是否相关?
  • 或者将 3 个分数取平均值以获得这样的值?
  • 或者我应该只保留第一个主成分(最强的)并使用它的分数作为索引?

或者,可以使用因子分析 (FA),但同样的问题仍然存在:如何基于多个因子得分创建单个索引?

2个回答

这个答案是故意非数学的,并且面向非统计学家心理学家(例如),他们询问他是否可以对不同因素的因素得分进行求和/平均以获得每个受访者的“综合指数”得分。

对某些变量的分数求和或平均假设变量属于同一维度并且是可替代的度量。(在问题中,“变量”是组件因子分数,这不会改变事情,因为它们是变量的示例。)

在此处输入图像描述

确实(图 1),受访者 1 和 2 可能被视为同样不典型(即偏离 0、数据中心所在地或规模原点),均具有相同的平均得分(.8+.8)/2=.8(1.2+.4)/2=.8. 价值.8是有效的,作为非典型的程度,对于构造X+Y完美无缺XY分别地。相关变量,代表相同的一维,可以看作是对相同特征的重复测量,而它们的分数的差异或不等价则被看作是随机误差。因此,有必要对分数进行求和/平均,因为随机误差预计会在 spe 中相互抵消

如果不是这样XY相关性不足以被视为相同的“维度”。因此,受访者的偏差/非典型性通过与原点的欧几里得距离来传达(图 2)。

在此处输入图像描述

受访者 1 和 2 的距离不同:.82+.821.131.22+.421.26, - 响应者 2 离得更远。如果变量是独立维度,欧几里得距离仍然与零基准的受访者位置相关,但平均分数不相关。举一个最极端的例子X=.8Y=.8. 从平均分的“观点”来看,这个被访者绝对是典型的,像X=0,Y=0. 对你来说是这样吗?

这里的另一个答案提到加权和或平均值,即wXXi+wYYi具有一些合理的权重,例如 - 如果X,Y是主要成分 - 与成分 st 成比例。偏差或方差。但这种加权原则上没有任何改变,它只是将图 2 中的圆沿轴拉伸和挤压成椭圆。重量wX,wY为所有受访者 i 设置为常数,这是缺陷的原因。为了关联受访者的二元偏差——圆形或椭圆形——必须引入取决于他的分数的权重;前面考虑的欧几里得距离实际上是这种加权和的一个例子,其权重取决于值。如果合并变量的不等方差(例如,主成分的方差,问题中的)对您很重要,您可以计算加权欧几里德距离,即圆拉长后将在图 2 中找到的距离。

欧几里得距离(加权或未加权)作为偏差是衡量受访者的双变量或多变量非典型性的最直观的解决方案。它基于形成平滑、各向同性空间的不相关(“独立”)变量的假设。曼哈顿距离可能是其他选择之一。它将特征空间视为由块组成,因此只允许水平/直立,而不是对角线距离。|.8|+|.8|=1.6|1.2|+|.4|=1.6为我们的两个受访者提供相同的曼哈顿非典型性;它实际上是分数的总和——但只有当分数都是正数时。的情况下X=.8Y=.8距离是1.6但总和是0.

(你可能会惊呼“因为我选择了曼哈顿距离,所以我会让所有数据得分为正并计算总和(或平均值),因为我选择了曼哈顿距离”,但请想一想 - 你是否有权自由移动原点?主成分或因素,例如,在数据以均值为中心的条件下提取,这很有意义。其他来源会产生具有其他分数的其他成分/因素。不,大多数时候您可能不会使用原点 - 轨迹“典型的受访者”或“零级特征” - 你喜欢玩。)

总而言之,如果复合结构的目的是反映相对于某个“零”或典型轨迹的受访者位置,但变量几乎没有相关性,则与该原点的某种空间距离,而不是平均值(或总和)加权或未加权,应选择。

好吧,如果您决定将(不相关的)变量视为衡量同一事物的替代模式,则平均值(总和)将是有意义的。这样你就故意忽略了变量的不同性质。换句话说,你有意识地离开图 2 来支持图 1:你“忘记”了变量是独立的。然后 - 求和或平均。例如,“物质福利”和“情感福利”的得分可以取平均值,“空间智商”和“语言智商”的得分也可以取平均值。这种纯粹务实的,未经批准的复合材料称为电池指数(一组测试或问卷,用于测量不相关的事物或相关事物,我们忽略其相关性称为“电池”)。只有当分数具有相同的方向(例如财富和情绪健康都被视为“更好”的极点)时,电池指数才有意义。它们在狭窄的临时设置之外的用处是有限的。

如果变量处于中间关系 - 它们的相关性仍然不足以将它们视为彼此的重复,替代,我们通常以加权方式对它们的值求和(或平均)。然后应该仔细设计这些权重,它们应该以这种或那种方式反映相关性。这就是我们所做的,例如,通过 PCA 或因子分析 (FA),我们专门计算组件/因子得分。如果您的变量本身已经是分量或因子分数(如此处所说的 OP 问题)并且它们是相关的(由于倾斜旋转),您可以将它们(或直接加载矩阵)置于二阶 PCA/FA 以找到权重并获得将为您提供“复合指数”的二阶 PC/因子。

但是,如果您的组件/因素得分不相关或相关性较弱,则没有统计理由既不直接总结它们,也不通过推断权重。改用一些距离。距离的问题在于它总是积极的:你可以说一个受访者有多不典型,但不能说他是“高于”还是“低于”。但这是从多特征空间中要求单个索引所必须付出的代价。如果您想要在这样的空间中既要偏差又要签名,我会说您太迫切了。

在最后一点,OP 询问是否只将一个最强变量的分数作为“指数”的唯一代表,就其方差而言 - 在这种情况下是第一个主成分。如果那台 PC比其他 PC 强大得多,是有道理的。虽然有人可能会问“如果它更强大,你为什么不提取/保留它的鞋底?”。

从时间序列链接到http://www.cup.ualberta.ca/wp-content/uploads/2013/04/SEICUPWebsite_10April13.pdf使用 PCA 创建复合索引

在第 19 页的那篇文章中,作者提到了一种创建非标准化指数 (NSI) 的方法,该方法使用每个因素解释的变异与所选因素解释的总变异的比例。然后将该 NSI 标准化。