机器算法验证 - 非正态数据上的马氏距离 - 吾爱随笔录

Mahalanobis 距离，当用于分类目的时，通常假设多元正态分布，然后到质心的距离应遵循 $\chi^2$ 分布（与 $d$ 自由度等于维度/特征的数量）。我们可以使用其马氏距离计算新数据点属于该集合的概率。

我有不遵循多元正态分布的数据集（ $d \approx 1000$ ）。理论上，每个特征都应该遵循泊松分布，从经验上看，这似乎是许多 ( $\approx 200$ ) 特征，以及那些不在噪声中并且可以从分析中移除的特征。如何对这些数据的新点进行分类？

我想有两个组成部分：

什么是该数据的适当“马氏距离”公式（即多元泊松分布）？是否有与其他分布的距离的概括？
无论我使用正常的马氏距离还是其他公式，这些距离的分布应该是什么？是否有不同的方法来进行假设检验？

或者...

已知数据点的数量 $n$ 在每个类别中差异很大，从 $n=1$ （太少；我会根据经验确定最小值）到 $n=6000$ . 马氏距离与 $n$ ，因此无法直接比较从一个模型/类到下一个模型/类的距离。当数据正态分布时，卡方检验提供了一种比较不同模型的距离的方法（除了提供临界值或概率）。如果有另一种方法可以直接比较“类马氏距离”，即使它不提供概率，我也可以使用它。