非正态数据上的马氏距离

机器算法验证 假设检验 分类 多元分析 泊松分布 联合分配
2022-03-25 19:35:20

Mahalanobis 距离,当用于分类目的时,通常假设多元正态分布,然后到质心的距离应遵循χ2分布(与d自由度等于维度/特征的数量)。我们可以使用其马氏距离计算新数据点属于该集合的概率。

我有不遵循多元正态分布的数据集(d1000)。理论上,每个特征都应该遵循泊松分布,从经验上看,这似乎是许多 (200) 特征,以及那些不在噪声中并且可以从分析中移除的特征。如何对这些数据的新点进行分类?

我想有两个组成部分:

  1. 什么是该数据的适当“马氏距离”公式(即多元泊松分布)?是否有与其他分布的距离的概括?
  2. 无论我使用正常的马氏距离还是其他公式,这些距离的分布应该是什么?是否有不同的方法来进行假设检验?

或者...

已知数据点的数量n在每个类别中差异很大,从n=1(太少;我会根据经验确定最小值)到n=6000. 马氏距离与n,因此无法直接比较从一个模型/类到下一个模型/类的距离。当数据正态分布时,卡方检验提供了一种比较不同模型的距离的方法(除了提供临界值或概率)。如果有另一种方法可以直接比较“类马氏距离”,即使它不提供概率,我也可以使用它。

1个回答

您可能想查看 Karlis 和 Meligkotsidou,“具有协方差结构的多元泊松回归”。2005. 本文是关于作者尝试对多元泊松变量建模的尝试,他们承认这是一项艰巨的任务。

使用 Mahalanobis 距离意味着可以通过均值和协方差矩阵进行推断——这只是正态分布的一个属性。如果您在数据上使用 MD,您基本上是在假装它们是 Normal。