如果我有一个包含观察值和个变量(维度)的数据集,并且通常很小(),并且的范围可能从小()到可能更大( )。
我记得知道应该比大得多,但在我的数据中似乎并非如此。请注意,出于我的目的,我很少对 PC2 之后的任何主要组件感兴趣。
问题:
- 当 PCA 可以使用和不可以使用时,最小样本量的经验法则是什么?
- 即使或也可以使用前几台 PC吗?
- 有这方面的参考吗?
如果您的主要目标是使用 PC1 和可能的 PC2,这是否重要:
- 简单地以图形方式,或
- 作为合成变量然后用于回归?
如果我有一个包含观察值和个变量(维度)的数据集,并且通常很小(),并且的范围可能从小()到可能更大( )。
我记得知道应该比大得多,但在我的数据中似乎并非如此。请注意,出于我的目的,我很少对 PC2 之后的任何主要组件感兴趣。
问题:
如果您的主要目标是使用 PC1 和可能的 PC2,这是否重要:
对于因子分析(不是主成分分析),有相当多的文献对观察次数的一些旧经验法则提出质疑。传统的建议——至少在心理测量学中——是每个变量至少有观察值(通常在到之间),所以无论如何。
然而,最近模拟研究的主要信息可能是结果的质量差异很大(取决于社区、因素的数量或因素与变量的比率等),考虑到变量与观察值的比率不是决定所需观察次数的好方法。如果条件是吉祥的,你可能会得到比旧指南建议的少得多的观察结果,但在某些情况下,即使是最保守的指南也过于乐观。例如,Preacher & MacCallum (2002) 在样本量极小且的情况下获得了良好的结果,但 Mundfrom, Shaw & Ke (2005) 发现了一些样本量为是必要的。他们还发现,如果潜在因素的数量保持不变,更多的变量(而不是更少,正如基于观察变量比的指导方针所暗示的那样)可能会在少量观察样本的情况下产生更好的结果。
相关参考:
您实际上可以衡量您的样本量是否“足够大”。小样本量太小的一个症状是不稳定。
引导或交叉验证您的 PCA:这些技术通过删除/交换一小部分样本来扰乱您的数据集,然后为每个被扰乱的数据集构建“代理模型”。如果代理模型足够相似(= 稳定),那么您就可以了。您可能需要考虑到 PCA 的解决方案不是唯一的:PC 可以翻转(将分数和各自的主成分都乘以)。您可能还想使用 Procrustes 旋转,以获得尽可能相似的 PC 模型。
MVA 不等式背后的思想很简单:PCA 等效于估计变量的相关矩阵。你试图猜测(对称矩阵)系数来自数据。(这就是为什么你应该有 n>>p。)
可以这样看出等价性:每个 PCA 步骤都是一个优化问题。我们试图找到表达最大差异的方向。IE:
在哪里是协方差矩阵。
在约束下:
这些问题的解显然是与它们的特征值相关。我不得不承认我不记得确切的公式,但特征向量取决于. 变量的模归一化,协方差矩阵和相关矩阵是一回事。
取 n = p 或多或少等同于猜测只有两个数据的值......它不可靠。
没有经验法则,请记住,PCA 或多或少与从价值观。
我希望这可能会有所帮助:
适用于 FA 和 PCA
''本章描述的方法需要大量样本才能得出稳定的解。什么构成足够的样本量有些复杂。直到最近,分析师还使用诸如“因子分析需要的主题数量是变量的 5-10 倍”之类的经验法则。最近的研究表明,所需的样本量取决于因子的数量、与每个因子相关的变量的数量,以及一组因子对变量方差的解释程度(Bandalos 和 Boehm-Kaufman,2009 年)。我会冒险说,如果你有数百个观察结果,你可能是安全的。''
Bandalos、DL 和 MR Boehm-Kaufman。2009. “探索性因素分析中的四个常见误解”。在 Statistical and Methodological Myths and Urban Legends 中,由 CE Lance 和 RJ Vandenberg 编辑,61-87。纽约:劳特里奇。
来自 Robert I. Kabacoff 的“R in Action”,这本书内容丰富,提供了涵盖几乎所有统计测试的良好建议。