测量两个多元分布之间的“距离”

机器算法验证 多元分析 术语 距离函数
2022-01-25 19:26:41

我正在寻找一些好的术语来描述我正在尝试做的事情,以便更容易地寻找资源。

所以,假设我有两个点 A 和 B 簇,每个点都与两个值 X 和 Y 相关联,我想测量 A 和 B 之间的“距离”——即它们从相同分布中采样的可能性有多大(我可以假设分布是正常的)。例如,如果 X 和 Y 在 A 中相关但在 B 中不相关,则分布不同。

直观地说,我会得到 A 的协方差矩阵,然后看看 B 中的每个点适合在那里的可能性有多大,反之亦然(可能使用类似 Mahalanobis 距离的东西)。

但这有点“临时”,并且可能有一种更严格的描述方式(当然,在实践中,我有两个以上的数据集和两个以上的变量 - 我试图确定我的哪些数据集是异常值)。

谢谢!

4个回答

嗯,Bhattacharyya 距离似乎是我正在寻找的,尽管Hellinger 距离也有效。

还有Kullback-Leibler散度,这与您上面提到的 Hellinger 距离有关。

启发式

  • 闵可夫斯基形式
  • 加权平均方差 (WMV)

非参数检验统计

  • 2(智广场)
  • 科尔莫哥罗夫-斯米尔诺夫 (KS)
  • 克莱默/冯米塞斯 (CvM)

信息论分歧

  • 库尔贝克-利布勒 (KL)
  • Jensen-Shannon 散度(公制)
  • Jeffrey-divergence(数值稳定和对称)

地面距离测量

  • 直方图交点
  • 二次型 (QF)
  • 推土机距离 (EMD)

最完整的调查由 Leandro Pardo,康普顿斯大学,查普曼霍尔 2006 年在基于散度测量的统计推断中提供。