如何解释使用主成分分析近似的原始时间序列?

数据挖掘 时间序列 主成分分析
2022-03-03 03:08:33

我已经阅读了一些关于在时间序列上应用 PCA 的帖子,但仍然有点困惑,我有以下问题(假设我正在处理 50 个行业回报的时间序列,并且我想使用聚类算法来划分它们分成几组):

  1. 假设我从相关矩阵计算了特征值和特征向量,发现前二十个特征值占总数的85%,然后我用这二十个特征值来近似原始时间序列。我知道如果我选择所有特征值,那么我可以获得相同的原始时间序列,但是如果我专门选择其中的 20 个,我会丢失什么信息?这样做的目的是什么?

  2. 我发现一些帖子说我们总是可以删除第一个主要组件(意味着我们不使用它),为什么我们可以这样做?

  3. 是否可以将每个特征值解释为市场的趋势,例如第一主成分,是否可以根据其对应的特征向量的符号得出相应的行业与市场趋势是同向还是不同,如果是,我可以通过使用前几个主成分的特征向量对它们进行分组来将k-means应用于所有行业,这有意义吗?

欢迎任何提示或想法,谢谢。

1个回答

通常,在 Stack Overflow 或任何其他姊妹网站上问任何问题的规范是,一个人应该只问一个问题,除非它们非常相似,在这种情况下似乎不是这样。

为了回答您的问题,XTX称为样本协方差(或相关)矩阵,其中X是维数的数据矩阵(m,d). 因此,所得矩阵的维数为(d,d)在哪里d是特征空间的维数。

正如你所说,这个矩阵被做一个特征分解得到ww1在哪里是特征值的对角矩阵,按降序排列,并且w是根据对应特征值堆叠的归一化特征向量。一个人可能想要选择一些的原因k维数是为了降维。

降维提供了多种好处——降低空间复杂度、更快的计算等等。当你专门谈论时间序列时,问题就出现了。PCA、ICA 没有考虑可能导致数据预测不理想的时间依赖性。有不同的方法来解决这个问题,一个人可能想要使用可预测的组件分析自动编码器等来确保他们获得的好处不仅是获得 PCA 提供的好处,而且还确保避免 PCA 的问题。

要回答第二个问题,我不确定原因,但可能想要放弃第一个本金,因为它在最大方差的方向上,即它在这个方向上变化最大。