两个时间序列的备用距离度量

机器算法验证 时间序列 聚类 相似之处 平滑
2022-03-12 10:21:39

我有不同房屋的时间序列数据。假设它是功耗数据。现在,我想最大限度地按照类似的功耗模式对房屋进行集群。因此,我能想到的用于衡量相似度的各种距离指标包括:

通过欧几里得距离,我发现其中一个系列中的异常值会导致巨大的差异。所以,我不想在我的情况下使用欧几里得距离。

使用 DTW 距离,我发现它首先尝试在给定的两个系列中映射相似的图案/形状,然后计算两个系列之间的相似性。我不想使用它,因为我不想在某一时刻将消费模式转移到另一个时刻以匹配两个输入系列。

支持上述观点的手绘图是:

使用欧几里得距离 在此处输入图像描述

使用 DTW 距离 在此处输入图像描述

现在我的问题是:

  1. 除了 DTW 或欧几里得,还有哪个距离度量最适合我的情况?
  2. 您能否指出一些更清楚地解释 Frechet 距离的参考资料。我找到了一些论文,但我无法清楚地了解这个概念。它是否只考虑两个系列的对应点,还是像 DTW 一样将一个系列的一个点与另一个系列的多个点进行比较?

更新: 当我们比较两个系列时,我认为我们从两个角度来看:

  1. 我们只考虑两个系列的大小(即峰值、最小值等)。因此,如果两个系列在相同的峰值内,那么我们认为两个系列是相同的,否则可以认为系列不同。
  2. 我们只考虑两个系列的形状(即尝试比较波峰和波谷)。我们不考虑这两个系列在数量级上有多远或多近。这实质上意味着,虽然我不将消耗相同数量净功率的家庭聚集在一起,但我将在群集中得到遵循相似模式(增加/减少)功耗的家庭。

我想要一个关于视角 2 的相似性度量。我已经总结了下图中的两个视角。 在此处输入图像描述

2个回答

回答问题1:

您对 DTW 的批评是通过在扭曲路径中引入全局约束来满足的。这有效地抑制了计算工作(因为不必计算不允许的扭曲路径)并防止病理扭曲。

因此答案是:具有全局约束的 DTW

如下图所示,此类约束有多种变体,例如 Sakoe-Chiba 带和 Itakura 平行四边形。该图像源自一个演示文稿,该演示文稿可在 Chotirat Ratanamahatana 和 Eamonn Keogh 所做的演示文稿中在线获得。

在此处输入描述

另一个可能相关的时间序列距离度量是:

LCSS - 最长公共子序列 - 最初开发用于分析字符串相似性,但也可用于数值时间序列。

对于大多数用户来说,这个“异常值”一个显着的差异,应该会产生可测量的差异。

但与完全不同的系列相比,它仍然应该只贡献一点,除非你没有很好地预处理你的数据。

我们无法为您提供更好的建议,因为无法说出想要什么。我们没有您的数据,也不知道您的问题。为了弄清楚如何解决这个问题,你需要形式化你的需求,即什么应该相似,什么应该不同,什么应该比另一个更相似。仅仅抱怨你不“喜欢”这些措施的结果是不够的,你需要更加精确。