Mahalanobis 距离,当用于分类目的时,通常假设多元正态分布,然后到质心的距离应遵循分布(与自由度等于维度/特征的数量)。我们可以使用其马氏距离计算新数据点属于该集合的概率。
我有不遵循多元正态分布的数据集()。理论上,每个特征都应该遵循泊松分布,从经验上看,这似乎是许多 () 特征,以及那些不在噪声中并且可以从分析中移除的特征。如何对这些数据的新点进行分类?
我想有两个组成部分:
- 什么是该数据的适当“马氏距离”公式(即多元泊松分布)?是否有与其他分布的距离的概括?
- 无论我使用正常的马氏距离还是其他公式,这些距离的分布应该是什么?是否有不同的方法来进行假设检验?
或者...
已知数据点的数量在每个类别中差异很大,从(太少;我会根据经验确定最小值)到. 马氏距离与,因此无法直接比较从一个模型/类到下一个模型/类的距离。当数据正态分布时,卡方检验提供了一种比较不同模型的距离的方法(除了提供临界值或概率)。如果有另一种方法可以直接比较“类马氏距离”,即使它不提供概率,我也可以使用它。