我有 192 个国家/地区,每个国家/地区都有 100 万个属性的值,这些属性的总和为 1(离散概率分布)。对于任何一个国家/地区,大多数属性值都是 0。
现在我正在尝试使用这些属性找到这些国家之间的距离/相似性。我知道我们可以使用 两个离散概率分布之间的Jensen Shannon Divergence来获得距离度量,但需要注意的是所有值都必须非零。
鉴于这些国家/地区的属性值为零,是否有任何其他合适的统计距离度量可以帮助我使用这 100 万个属性对这些国家进行聚类?
我有 192 个国家/地区,每个国家/地区都有 100 万个属性的值,这些属性的总和为 1(离散概率分布)。对于任何一个国家/地区,大多数属性值都是 0。
现在我正在尝试使用这些属性找到这些国家之间的距离/相似性。我知道我们可以使用 两个离散概率分布之间的Jensen Shannon Divergence来获得距离度量,但需要注意的是所有值都必须非零。
鉴于这些国家/地区的属性值为零,是否有任何其他合适的统计距离度量可以帮助我使用这 100 万个属性对这些国家进行聚类?
是的,很多。
获取“距离百科全书”一书。
例如,您可以使用直方图相交距离。由于您的数据已经标准化,如果我没记错的话,这会减少到曼哈顿距离。是的:这可能适用于发行版。
您可以使用Kullback–Leibler 散度,也称为相对熵,它衡量一个概率分布与第二个预期概率分布的差异程度。它处理具有 0 值的属性。