我有不同房屋的时间序列数据。假设它是功耗数据。现在,我想最大限度地按照类似的功耗模式对房屋进行集群。因此,我能想到的用于衡量相似度的各种距离指标包括:
通过欧几里得距离,我发现其中一个系列中的异常值会导致巨大的差异。所以,我不想在我的情况下使用欧几里得距离。
使用 DTW 距离,我发现它首先尝试在给定的两个系列中映射相似的图案/形状,然后计算两个系列之间的相似性。我不想使用它,因为我不想在某一时刻将消费模式转移到另一个时刻以匹配两个输入系列。
支持上述观点的手绘图是:
现在我的问题是:
- 除了 DTW 或欧几里得,还有哪个距离度量最适合我的情况?
- 您能否指出一些更清楚地解释 Frechet 距离的参考资料。我找到了一些论文,但我无法清楚地了解这个概念。它是否只考虑两个系列的对应点,还是像 DTW 一样将一个系列的一个点与另一个系列的多个点进行比较?
更新: 当我们比较两个系列时,我认为我们从两个角度来看:
- 我们只考虑两个系列的大小(即峰值、最小值等)。因此,如果两个系列在相同的峰值内,那么我们认为两个系列是相同的,否则可以认为系列不同。
- 我们只考虑两个系列的形状(即尝试比较波峰和波谷)。我们不考虑这两个系列在数量级上有多远或多近。这实质上意味着,虽然我不将消耗相同数量净功率的家庭聚集在一起,但我将在群集中得到遵循相似模式(增加/减少)功耗的家庭。