量化一个数据集与另一个数据集的差异量

数据挖掘 数据集
2022-03-01 17:11:41

基本上我在这里为我的案例场景寻找最佳方法。例如下图,左边是庞加莱地图数据集#1,右边是数据集#2。

在此处输入图像描述

量化右侧与左侧差异的最佳方法是什么?标准偏差在这里不会有太大帮助,因为这是两个独立的数据集。感谢任何输入,在此先感谢!

1个回答

只是平均(或汇总,更普遍地汇总)一些标准措施:

如果您仔细观察,python 实现对于其中一些已经是通用的,这意味着您可以将它们直接应用于数据集,而不是单独应用于向量

示例:余弦相似度、欧几里得距离、曼哈顿/城市街区距离、切比雪夫距离、闵可夫斯基尘埃。对于计算机视觉,相似性度量是:Hausdorff 距离(如果每个集合的每个点都靠近另一个集合的某个点,则认为两个数据向量很接近)、Bhattacharyya 距离(两个概率分布的相似性度量)、Bhattacharyya 系数(两个向量的相对接近度的度量)和马氏距离(巴塔查亚距离的一个特定情况)。