我们通常使用 PCA 作为假设案例是独立同分布的数据的降维技术
问题:将 PCA 应用于非独立同分布数据的典型细微差别是什么?持有 iid 数据的 PCA 有哪些好的/有用的属性受到损害(或完全丢失)?
例如,数据可能是多变量时间序列,在这种情况下,可能会出现自相关或自回归条件异方差 (ARCH)。
之前已经提出了一些关于将 PCA 应用于时间序列数据的相关问题,例如1、2、3、4,但我正在寻找一个更普遍和全面的答案(无需对每个单独的点进行过多扩展)。
编辑:正如@ttnphns 所指出的,PCA本身不是推理分析。然而,人们可能会对 PCA 的泛化性能感兴趣,即关注样本 PCA 的总体对应物。例如,在Nadler (2008)中写道:
假设给定数据是来自(通常未知的)分布的有限和随机样本,一个有趣的理论和实践问题是从有限数据计算的样本 PCA 结果与基础人口模型的结果之间的关系。
参考:
- 纳德勒,波阿斯。“主成分分析的有限样本逼近结果:矩阵扰动方法。” 统计年鉴(2008 年):2791-2817。