我有大量的金融时间序列,我希望对其进行聚类分析。每个时间序列都具有相同的长度并跨越多年的每日数据(回报、波动率等)。作为我研究的一部分,我想将 K-means 的性能与更复杂的聚类算法的性能进行比较。我决定简单地坚持使用欧几里得距离作为 K-means 的相似性度量。
我的问题是,当您使用欧几里得距离进行 K 均值聚类时,我无法找到如何表示此类多元时间序列数据的任何示例。我的解决方案是简单地“展平”每个时间序列,以便在每个时间步为每个变量创建一个新变量。例如,对于时间序列, 时间步的开盘价将成为一个新变量.
这是一种有意义的方法,还是我的聚类分析结果毫无意义?我知道,例如,如果您要进行价格预测,那么像这样扁平化多元时间序列会破坏数据的时间结构。但既然我不关心预测,只希望对数据进行聚类,我的方法没有意义吗?