数据挖掘 - 在聚类之前扁平化多元时间序列数据会使结果毫无意义吗？ - 吾爱随笔录

我有大量的金融时间序列，我希望对其进行聚类分析。每个时间序列都具有相同的长度并跨越多年的每日数据（回报、波动率等）。作为我研究的一部分，我想将 K-means 的性能与更复杂的聚类算法的性能进行比较。我决定简单地坚持使用欧几里得距离作为 K-means 的相似性度量。

我的问题是，当您使用欧几里得距离进行 K 均值聚类时，我无法找到如何表示此类多元时间序列数据的任何示例。我的解决方案是简单地“展平”每个时间序列，以便在每个时间步为每个变量创建一个新变量。例如，对于时间序列 $s$ , 时间步的开盘价 $t$ 将成为一个新变量 $o^{s}_{t}$ .

这是一种有意义的方法，还是我的聚类分析结果毫无意义？我知道，例如，如果您要进行价格预测，那么像这样扁平化多元时间序列会破坏数据的时间结构。但既然我不关心预测，只希望对数据进行聚类，我的方法没有意义吗？