机器算法验证 - PCA 和渐近 PCA 有什么区别？ - 吾爱随笔录

PCA 和渐近 PCA 有什么区别？

机器算法验证主成分分析计量经济学

2022-01-20 21:03:21

在1986 年和1988年的两篇论文中，Connor 和 Korajczyk 提出了一种资产回报建模方法。由于这些时间序列通常具有比时间段观察更多的资产，因此他们建议对资产收益的横截面协方差执行 PCA。他们将这种方法称为渐近主成分分析（APCA，相当令人困惑，因为观众会立即想到 PCA 的渐近特性）。

我已经计算出方程，这两种方法在数值上似乎是等价的。渐近线当然不同，因为而不是证明了收敛性。我的问题是：有没有人使用过 APCA 并与 PCA 进行比较？有具体的区别吗？如果有，有哪些？ $N \rightarrow \infty$ $T \rightarrow \infty$

2个回答

绝对没有区别。

标准 PCA 与 C&K 建议并称为“渐近 PCA”的完全没有区别。给它一个单独的名字是很荒谬的。

以下是 PCA 的简短说明。如果在行中具有样本的居中数据存储在数据矩阵中，则 PCA 查找协方差矩阵的特征向量，并将数据投影到这些特征向量来获得主成分。等效地，可以考虑一个 Gram 矩阵。很容易看出它具有完全相同的特征值，并且它的特征向量是缩放的 PC。（这在样本数少于特征数时很方便。） $\mathbf X$ $\frac{1}{N}\mathbf X^\top \mathbf X$ $\frac{1}{N}\mathbf X \mathbf X^\top$

在我看来，C&K 的建议是计算 Gram 矩阵的特征向量以计算主成分。嗯，哇。这与 PCA 不“等价”；它是PCA。

更令人困惑的是，“渐近 PCA”这个名称似乎是指它与因子分析 (FA) 的关系，而不是与 PCA 的关系！原始的 C&K 论文在付费墙下，所以这里引用Tsay 的引述，金融时间序列分析，可在 Google 图书上找到：

Connor 和 Korajczyk (1988) 表明，作为 [特征数] [Gram 矩阵] 的特征值-特征向量分析等效于传统的统计因子分析。 $k$ $\to \infty$

这真正意味着当时，PCA 给出与 FA 相同的解决方案。这是关于 PCA 和 FA 的一个易于理解的事实，与 C&K 的建议无关。我在以下线程中讨论过它： $k \to \infty$

所以底线是：C&K 决定为标准 PCA 创造术语“渐近 PCA”（也可以称为“渐近 FA”）。我什至建议永远不要使用这个词。

通常，当有很多系列但样本很少时，会使用 APCA。由于您提到的等效性，我不会将 APCA 描述为比 PCA 更好或更差。但是，它们在工具适用的情况下确实有所不同。这就是论文的见解：如果更方便，您可以翻转维度！所以在你提到的应用程序中，有很多资产，所以你需要很长的时间序列来计算协方差矩阵，但现在你可以使用 APCA。也就是说，我不认为 APCA 经常被应用，因为您可以尝试使用其他技术（如因子分析）来降低维度。

其它你可能感兴趣的问题