我已经阅读了一些关于在时间序列上应用 PCA 的帖子,但仍然有点困惑,我有以下问题(假设我正在处理 50 个行业回报的时间序列,并且我想使用聚类算法来划分它们分成几组):
假设我从相关矩阵计算了特征值和特征向量,发现前二十个特征值占总数的85%,然后我用这二十个特征值来近似原始时间序列。我知道如果我选择所有特征值,那么我可以获得相同的原始时间序列,但是如果我专门选择其中的 20 个,我会丢失什么信息?这样做的目的是什么?
我发现一些帖子说我们总是可以删除第一个主要组件(意味着我们不使用它),为什么我们可以这样做?
是否可以将每个特征值解释为市场的趋势,例如第一主成分,是否可以根据其对应的特征向量的符号得出相应的行业与市场趋势是同向还是不同,如果是,我可以通过使用前几个主成分的特征向量对它们进行分组来将k-means应用于所有行业,这有意义吗?
欢迎任何提示或想法,谢谢。