非常大的离散概率分布之间的距离

数据挖掘 聚类 可能性 距离
2021-09-20 16:58:51

我有 192 个国家/地区,每个国家/地区都有 100 万个属性的值,这些属性的总和为 1(离散概率分布)。对于任何一个国家/地区,大多数属性值都是 0。

现在我正在尝试使用这些属性找到这些国家之间的距离/相似性。我知道我们可以使用 两个离散概率分布之间的Jensen Shannon Divergence来获得距离度量,但需要注意的是所有值都必须非零。

鉴于这些国家/地区的属性值为零,是否有任何其他合适的统计距离度量可以帮助我使用这 100 万个属性对这些国家进行聚类?

3个回答

是的,很多。

获取“距离百科全书”一书。

例如,您可以使用直方图相交距离。由于您的数据已经标准化,如果我没记错的话,这会减少到曼哈顿距离。是的:这可能适用于发行版。

我建议对概率分布使用某种平滑,例如拉普拉斯平滑(有时称为“加一平滑”)。然后,您将能够使用 Jensen-Shannon 距离。

或者,您可以使用其他一些距离度量,例如推土机的距离总变化距离哪个度量最合适可能取决于应用领域的细节和对这些距离的期望解释。

您可以使用Kullback–Leibler 散度,也称为相对熵,它衡量一个概率分布与第二个预期概率分布的差异程度。它处理具有 0 值的属性。