PCA 对自相关数据做了什么?

机器算法验证 时间序列 主成分分析
2022-03-17 04:14:13

仅仅因为某位记者提出了一个关于自相关计算方法的有趣问题,我开始玩弄它,几乎对时间序列和自相关一无所知。

通讯员安排他的数据(数据点)每个偏移一个时间延迟,以便他有一个数据矩阵(据我了解),其中第一行是原始数据,第二行数据移动时间单位,下一行移动另一个,依此类推。我还通过将末端粘在尾部来实现这一点,因此制作了“圆形”数据集。3232×321

然后,只是为了看看可能会产生什么,我计算了相关矩阵,并从中计算出主成分。令人惊讶的是,我得到了频率分解的图像,并且(再次与其他数据一起)一个频率,说数据中的一个周期位于第一个主成分中,而四个周期位于第二台 PC 中,依此类推(我有的“相关”PC326>1)。首先我认为这取决于输入数据,但现在我假设它是系统地通过具有循环移位的数据集的特殊构造(也称为“Toeplitz”矩阵)来系统化的。将 PC 解决方案旋转到 varimax 或其他旋转标准给出了略有不同的结果,并且可能很有趣,但总的来说似乎提供了这样的频率分解。

这是我点数据集制作的图片的链接;这些曲线只是由因子矩阵的载荷制成:一条曲线是一个因子的载荷。第一个 PC1 的曲线应该显示出最高的振幅(大概是因为它承受最高的负载平方和)32

问题:

  • Q1:这是设计的功能吗?(具有此类数据集的 PCA)
  • 问题 2:这种方法是否确实可用于严肃的频率/波长分析方法?

[更新]这里是数据集(希望它可以为你复制)

-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4
-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5
-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3
0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1
2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0
4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2
6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4
5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6
3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5
1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3
1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1
0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1
-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0
-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2
-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3
0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1
3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0
5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3
7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5
6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7
7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6
5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7
4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5
3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4
2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3
3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2
5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3
4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5
3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4
2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3
3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2
4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3
1个回答

让我将我之前的评论转换为答案。

您认为数据矩阵中的行是变量还是样本?我将假设它们是样本:即您有不同的时间序列(样本)。n=32

然后,如果所有行都是相同的,但每行仅循环移动位置,那么由所有行对之间的点积组成的数据 Gram 矩阵将具有 Toeplitz 结构:接近对角线并逐渐减小到远离它的零值。Toeplitz 矩阵具有连续的傅里叶模式作为它们的特征向量(并且 Gram 矩阵的特征向量是主成分,直到缩放),所以你的 Q1 来说是肯定的:你得到频率增加的正弦波作为 PC 也就不足为奇了。n=321n×n

不知道它是否有用(Q2)。以我的经验,它往往看起来像一个令人讨厌的神器。即人们有一些数据,从 PCA 中得到类似于傅立叶模式的东西,然后开始想知道它们可能意味着什么,而它们只是由于原始时间序列中的一些时间变化。