我有一个包含大量是/否响应的数据集。我可以对此类数据使用主成分 (PCA) 或任何其他数据缩减分析(例如因子分析)吗?请告知我如何使用 SPSS 进行此操作。
对二进制数据进行主成分分析或因子分析
PCA 或因子分析中二分变量或二元变量的问题是永恒的。从“这是非法的”到“没关系”,从“你可以这样做,但你会得到太多因素”之类的两极观点。我个人目前的看法如下。首先,我认为二元观测变量是离散的,并且以任何方式将其视为连续的都是不合适的。这个离散变量能否产生因子或主成分?
因子分析(FA)。根据定义,因子是加载可观察变量(1、2)的连续潜值。因此,当因子加载足够多时,后者只能是连续的(或者更实际地说是间隔)。此外,FA 由于其线性回归性质,假设其余未加载的部分(称为 uniqness)也是连续的,因此即使在轻微加载时,可观察变量也应该是连续的。因此,二元变量 不能在 FA 中自行立法. 但是,至少有两种方法:(A)假设二分法是粗糙的连续基础变量,并使用四角相关而不是 Pearson 相关进行 FA;(B) 假设因子不是线性地而是逻辑地加载二分变量,并进行潜在特征分析(又名项目响应理论)而不是线性 FA。阅读更多。
主成分分析(PCA)。虽然与 FA 有很多共同点,但 PCA 不是一种建模,而只是一种总结方法。组件不加载与因子加载变量相同的概念意义上的变量。在 PCA 中,组件加载变量, 变量加载组件。这种对称性是因为 PCA 本身只是空间中变量轴的旋转。二进制变量本身不会为组件提供真正的连续性 - 因为它们不是连续的,但可以通过可能出现的任何 PCA 旋转角度提供伪连续性。因此,在 PCA 中,与 FA 相比,您可以获得具有纯二元变量(未旋转轴)的看似连续的维度(旋转轴) - 角度是连续性的原因.
计算二进制变量的均值是否合法是有争议的(如果您将它们视为真正的分类特征)。通常 PCA 是在协方差或相关性上执行的,这意味着将 PCA 旋转的枢轴点放在 (1) 质心(算术平均值)中。对于二进制数据,除此之外,考虑其他更自然的二进制数据位置对于此类枢轴点或原点是有意义的:(2)无属性点
(0,0)
(如果您将变量视为“序数”二进制),( 3) L1 或曼哈顿中心点,(4) 多元模态点.
关于二进制数据的FA或PCA的一些相关问题:1 , 2 , 3 , 4 , 5 , 6。那里的答案可能会表达与我不同的观点。
在二进制数据的 PCA 中计算的分量分数,就像在名义数据的 MCA(多重对应分析)中计算的对象分数一样,只是平滑欧几里得空间映射中粒度数据的分数坐标:这些不允许我们得出结论,分类数据通过普通 PCA 获得了真实的比例测量。要获得真正的标度值,变量必须从一开始就具有标度性质,在输入时,或者必须特别量化或假设它们已被分箱(参见参考资料)。但是在经典的 PCA 或 MCA 中,“连续性”的空间后来出现在汇总统计(例如关联或频率矩阵)的级别,因为可数性类似于可测量性,两者都是“定量的”。为此_级别实体 - 对于作为点的变量或作为点的类别 - 它们在主轴空间中的坐标确实是合法的比例值。但不适用于二进制数据的数据点(数据案例),它们的“分数”是伪连续值:不是内在度量,只是一些叠加坐标。
根据旋转原点的位置,使用二进制数据演示各种版本的 PCA。线性 PCA 可以应用于任何SSCP 类型的关联矩阵;您可以选择将原点放在哪里以及是否将幅度(矩阵对角元素)缩放到相同的值(例如,) 或不。PCA假设矩阵是 SSCP 类型,并通过主成分使SS 与原点的偏差最大化。当然,对于二进制数据(有界),SS 偏差仅取决于在原点之外的这个或那个方向上观察到的频率;但它也取决于我们定位原点的位置。
二进制数据示例(只是两个变量的简单情况):
下面的散点图显示数据点有点抖动(以渲染频率),并将主成分轴显示为对角线,上面带有成分分数[根据我的说法,这些分数是伪连续值]。每张图片的左图展示了基于与原点的“原始”偏差的 PCA,而右图展示了基于与原点的缩放(对角线 = 单位)偏差的 PCA。
1) 传统的 PCA 将(0,0)
原点放入数据均值(质心)中。对于二进制数据,均值不是可能的数据值。然而,它是物理重心。PCA 最大化了它的可变性。
(也不要忘记,在二进制变量中,均值和方差是严格联系在一起的,可以说,它们是“一件事”。标准化/缩放二进制变量,即基于相关性而不是协方差进行 PCA,在当前实例,将意味着您阻碍更平衡的变量 - 具有更大的方差 - 对 PCA 的影响比更偏斜的变量更大。)
2)您可以在非中心数据中进行PCA,即让原点(0,0)
转到位置(0,0)
。它是 MSCP ( X'X/n
) 矩阵或余弦相似度矩阵上的 PCA。PCA 最大化从无属性状态的概率。
3)您可以让原点(0,0)
位于从它到所有其他数据点的曼哈顿距离之和最小的数据点 - L1 medoid。Medoid 通常被理解为最具“代表性”或“典型”的数据点。因此,PCA 将最大化非典型性(除了频率)。在我们的数据中,L1 中心点落在(1,0)
原始坐标上。
4)或将原点(0,0)
放在频率最高的数据坐标处 - 多元模式。它是(1,1)
我们示例中的数据单元格。PCA 将最大化(受驱动)初级模式。
5)在答案的正文中提到,对于二元变量,四元相关性是一个可以进行因子分析的合理问题。PCA 也可以这样说:您可以基于四色相关性进行 PCA。但是,这意味着您假设二进制变量中有一个潜在的连续变量。