突出特征对称值的适当相似性度量

数据挖掘 相似 距离
2022-03-03 04:54:54

我试图找到一个合适的距离度量来反映下图中看到的向量的差异:绿色向量与蓝色向量和橙色向量进行比较。

尽管存在“相移”,但大多数距离测量(例如欧几里得)会产生相同的值。因此,直线看起来与蓝色和橙色线“相同”!

这些功能是有序的,但我也对它们无序的情况感兴趣。

我还想在中间“拆分”向量并将它们视为两个子向量的包(就像在多实例设置中一样),但是我不知道如何将两个结果距离合并为一个。

所以我想我的问题有两个:

  • 是否有一种距离度量可以在单个实例设置中突出这些类型的值对称性?
  • 有没有一种方法可以组合多个距离(在多实例设置中),从而在最终距离结果中突出显示对称性(因此顺序)?

谢谢

在此处输入图像描述

1个回答

这是功能问题吗?从解释来看,您正在考虑的特征似乎是距离。所以结果符合预期(来自“单一特征距离袋”)。

您提到顺序很重要,因此可以将其添加为功能。或者,既然您提到了“相移”,时间(和/或频率) - 给您一个时间序列。在这两种情况下,您都可以引入各种工具。您可以从回归开始,然后再使用更复杂的方法(有时简单是最好的)。

这将允许您在单个或多个向量之间产生相似性度量。

滑动时间窗口与人口中包含的向量,您也许也可以考虑,我们曾经做过这样的解决方案。