当主要目标是仅估计少数组件时,PCA 或 FA 的最小样本量是多少?

机器算法验证 主成分分析 样本量 因子分析
2022-01-18 04:53:27

如果我有一个包含观察值和个变量(维度)的数据集,并且通常很小(),并且的范围可能从小()到可能更大( )。npnn=1216pp=410p=3050

我记得知道应该比大得多,但在我的数据中似乎并非如此。请注意,出于我的目的,我很少对 PC2 之后的任何主要组件感兴趣。np

问题:

  1. 当 PCA 可以使用和不可以使用时,最小样本量的经验法则是什么?
  2. 即使也可以使用前几台 PC吗?n=pn<p
  3. 有这方面的参考吗?
  4. 如果您的主要目标是使用 PC1 和可能的 PC2,这是否重要:

    • 简单地以图形方式,或
    • 作为合成变量然后用于回归?
4个回答

对于因子分析(不是主成分分析),有相当多的文献对观察次数的一些旧经验法则提出质疑。传统的建议——至少在心理测量学中——是每个变量至少有观察值(通常在之间),所以无论如何xx520np

可以在http://www.encorewiki.org/display/~nzhao/The+Minimum+Sample+Size+in+Factor+Analysis找到包含许多参考资料的相当全面的概述

然而,最近模拟研究的主要信息可能是结果的质量差异很大(取决于社区、因素的数量或因素与变量的比率等),考虑到变量与观察值的比率不是决定所需观察次数的好方法。如果条件是吉祥的,你可能会得到比旧指南建议的少得多的观察结果,但在某些情况下,即使是最保守的指南也过于乐观。例如,Preacher & MacCallum (2002) 在样本量极小且的情况下获得了良好的结果,但 Mundfrom, Shaw & Ke (2005) 发现了一些样本量为p>nn>100p是必要的。他们还发现,如果潜在因素的数量保持不变,更多的变量(而不是更少,正如基于观察变量比的指导方针所暗示的那样)可能会在少量观察样本的情况下产生更好的结果。

相关参考:

  • Mundfrom, DJ, Shaw, DG, & Ke, TL (2005)。进行因子分析的最小样本量建议。国际测试杂志, 5 (2),159-168。
  • 传教士,KJ 和麦卡勒姆,RC(2002 年)。行为遗传学研究中的探索性因素分析:小样本的因素恢复。行为遗传学, 32 (2), 153-161。
  • de Winter, JCF, Dodou, D., & Wieringa, PA (2009)。小样本的探索性因素分析。多元行为研究, 44 (2), 147-181。

您实际上可以衡量您的样本量是否“足够大”。小样本量太小的一个症状是不稳定。

引导或交叉验证您的 PCA:这些技术通过删除/交换一小部分样本来扰乱您的数据集,然后为每个被扰乱的数据集构建“代理模型”。如果代理模型足够相似(= 稳定),那么您就可以了。您可能需要考虑到 PCA 的解决方案不是唯一的:PC 可以翻转(将分数和各自的主成分都乘以)。您可能还想使用 Procrustes 旋转,以获得尽可能相似的 PC 模型。1

MVA 不等式背后的思想很简单:PCA 等效于估计变量的相关矩阵。你试图猜测pp12(对称矩阵)系数来自np数据。(这就是为什么你应该有 n>>p。)

可以这样看出等价性:每个 PCA 步骤都是一个优化问题。我们试图找到表达最大差异的方向。IE:

max(aiTΣai)

在哪里σ是协方差矩阵。

在约束下:

aiTai=1
(正常化)

aiTaj=0
(为了j<i,与先前组件的正交性)

这些问题的解显然是Σ与它们的特征值相关。我不得不承认我不记得确切的公式,但特征向量取决于σ. 变量的模归一化,协方差矩阵和相关矩阵是一回事。

取 n = p 或多或少等同于猜测只有两个数据的值......它不可靠。

没有经验法则,请记住,PCA 或多或少与从2np价值观。

我希望这可能会有所帮助:

适用于 FA 和 PCA

''本章描述的方法需要大量样本才能得出稳定的解。什么构成足够的样本量有些复杂。直到最近,分析师还使用诸如“因子分析需要的主题数量是变量的 5-10 倍”之类的经验法则。最近的研究表明,所需的样本量取决于因子的数量、与每个因子相关的变量的数量,以及一组因子对变量方差的解释程度(Bandalos 和 Boehm-Kaufman,2009 年)。我会冒险说,如果你有数百个观察结果,你可能是安全的。''

参考:

Bandalos、DL 和 MR Boehm-Kaufman。2009. “探索性因素分析中的四个常见误解”。在 Statistical and Methodological Myths and Urban Legends 中,由 CE Lance 和 RJ Vandenberg 编辑,61-87。纽约:劳特里奇。

来自 Robert I. Kabacoff 的“R in Action”,这本书内容丰富,提供了涵盖几乎所有统计测试的良好建议。