相关观察的 PCA 属性

机器算法验证 时间序列 主成分分析 非独立的 独立同居
2022-01-25 15:26:52

我们通常使用 PCA 作为假设案例是独立同分布的数据的降维技术

问题:将 PCA 应用于非独立同分布数据的典型细微差别是什么?持有 iid 数据的 PCA 有哪些好的/有用的属性受到损害(或完全丢失)?

例如,数据可能是多变量时间序列,在这种情况下,可能会出现自相关或自回归条件异方差 (ARCH)。

之前已经提出了一些关于将 PCA 应用于时间序列数据的相关问题,例如1234,但我正在寻找一个更普遍和全面的答案(无需对每个单独的点进行过多扩展)。

编辑:正如@ttnphns 所指出的,PCA本身不是推理分析。然而,人们可能会对 PCA 的泛化性能感兴趣,即关注样本 PCA 的总体对应物。例如,在Nadler (2008)中写道:

假设给定数据是来自(通常未知的)分布的有限和随机样本,一个有趣的理论和实践问题是从有限数据计算的样本 PCA 结果与基础人口模型的结果之间的关系。

参考:

1个回答

据推测,您可以将时间分量作为附加功能添加到您的采样点,现在它们是 iid 吗?基本上,原始数据点是有条件的:

p(xiti)p(xi)

但是,如果我们定义xi={xi,ti},那么我们有:

p(xiti)=p(xi)

...并且数据样本现在是相互独立的。

在实践中,通过将时间作为一个特征包含在每个数据点中,PCA 可以使一个分量简单地指向时间特征轴。但是,如果任何特征与时间特征相关,则一个组件可能由这些特征中的一个或多个以及时间特征组成。