量化两个数据集之间的相似性

机器算法验证 相似之处
2022-01-29 14:31:21

摘要:试图找到最好的方法,使用单个值来总结两个对齐的数据集数据之间的相似性。

详情

我的问题最好用图表来解释。下图显示了两个不同的数据集,每个数据集的值都标记为nfnr沿 x 轴的点表示进行测量的位置,y 轴上的值是得到的测量值。

对于每个图表,我想要一个数字来总结每个测量点的相似性nf和值。nr在这个例子中,很明显第一张图中的结果与第二张图中的结果不太相似。但是我有很多其他数据,其中差异不太明显,因此能够对其进行定量排名会有所帮助。

我认为可能有一种通常使用的标准技术。搜索统计相似性得到了很多不同的结果,但我不确定什么是最好的选择,或者我准备好的东西是否适用于我的问题。所以我认为这个问题可能值得在这里问,以防万一有一个简单的答案。

在此处输入图像描述

3个回答

两条曲线之间的区域可能会给您带来差异。因此sum(nr-nf)(所有差异的总和)将是两条曲线之间面积的近似值。如果要使其相对,sum(nr-nf)/sum(nf)可以使用。这些将为您提供一个值,指示每个图形的 2 条曲线之间的相似性。

编辑:即使这些是单独的点或观察值而不是连接的线或曲线,上述差异总和方法也会很有用,但在这种情况下,差异的平均值也可以作为一个指标,并且可能会更好,因为它会考虑到观察次数。

您需要更多地定义“相似性”的含义。量级重要吗?还是只有形状?

如果只有形状很重要,您将希望通过它们的最大值对两个时间序列进行归一化(因此它们都是从 0 到 1)。

如果您正在寻找线性相关性,一个简单的皮尔逊相关性就可以正常工作 - 它本质上是测量协方差。

例如,还有其他技术可以将一条线或多项式拟合到时间序列(基本上对其进行平滑),然后比较平滑的多项式。

如果您正在寻找周期性相似性(即时间序列具有一定的正弦分量或季节性),请考虑首先将时间序列分解为趋势和季节分量。或者使用 FFT 之类的东西来比较频域中的数据。

这就是我所知道的一切,没有更多关于“相似”应该是什么的定义。希望能帮助到你。

您可以对每个测量点使用 (nr-nf),数字(绝对值)越小,值越相似。不完全是最科学的方法,请原谅我,我没有在这方面接受过真正的正式培训。如果您只是在寻找视觉的数字表示,那么应该这样做。