量化一个数据集与另一个数据集的差异量
数据挖掘
数据集
2022-03-01 17:11:41
1个回答
只是平均(或汇总,更普遍地汇总)一些标准措施:
如果您仔细观察,python 实现对于其中一些已经是通用的,这意味着您可以将它们直接应用于数据集,而不是单独应用于向量
示例:余弦相似度、欧几里得距离、曼哈顿/城市街区距离、切比雪夫距离、闵可夫斯基尘埃。对于计算机视觉,相似性度量是:Hausdorff 距离(如果每个集合的每个点都靠近另一个集合的某个点,则认为两个数据向量很接近)、Bhattacharyya 距离(两个概率分布的相似性度量)、Bhattacharyya 系数(两个向量的相对接近度的度量)和马氏距离(巴塔查亚距离的一个特定情况)。
