这个相似距离度量的名称是什么?

数据挖掘 聚类 算法 执行
2022-02-15 03:34:31
def distance_metric(seed, base):
    num = 0.0
    den = 0.0
    num = sum(numpy.minimum(seed,base))
    den = sum(numpy.maximum(seed,base))
    dist = round(1.0 - 1.0*num/den,4)
    return dist

该指标用于在局部敏感散列的上下文中衡量相似性。

如果它们的距离 < 0.16,则保留存储桶中的项目。

1个回答

这是加权 Jaccard 指数。

https://en.wikipedia.org/wiki/Jaccard_index#Weighted_Jaccard_similarity_and_distance

这与常规的 Jaccard 指数(相似度)不同。