在聚类之前扁平化多元时间序列数据会使结果毫无意义吗?

数据挖掘 时间序列 聚类 预处理 k-均值 金融
2022-02-17 18:54:33

我有大量的金融时间序列,我希望对其进行聚类分析。每个时间序列都具有相同的长度并跨越多年的每日数据(回报、波动率等)。作为我研究的一部分,我想将 K-means 的性能与更复杂的聚类算法的性能进行比较。我决定简单地坚持使用欧几里得距离作为 K-means 的相似性度量。

我的问题是,当您使用欧几里得距离进行 K 均值聚类时,我无法找到如何表示此类多元时间序列数据的任何示例。我的解决方案是简单地“展平”每个时间序列,以便在每个时间步为每个变量创建一个新变量。例如,对于时间序列s, 时间步的开盘价t将成为一个新变量ots.

这是一种有意义的方法,还是我的聚类分析结果毫无意义?我知道,例如,如果您要进行价格预测,那么像这样扁平化多元时间序列会破坏数据的时间结构。但既然我不关心预测,只希望对数据进行聚类,我的方法没有意义吗?

0个回答
没有发现任何回复~