为什么不平衡的数据集会严重影响马氏距离测量?

数据挖掘 数据 阶级失衡 相似 距离
2022-02-23 03:10:34

我对数据科学比较陌生,我很难理解为什么应用于不平衡数据集的马氏距离(或任何其他距离度量)变得不准确。我有一个数据集,由三个类 A、B 和 C 组成。A 类有100 个观察值,B 类有 60 个观察值,C 类有 20 个观察值当我计算每个类之间的马氏距离时,结果似乎与我的 PCA(主成分分析)图不一致。在 PCA 图中,C 类是最独立的类;然而,马氏距离并没有反映这一点。

对于平衡数据集,即 A、B 和 C 类具有相同数量的观察值,这从来都不是问题。马氏距离总是相当准确地反映平衡数据的 PCA 结果。

我在这里阅读了一些类似的问题和答案,关于为什么必须仔细处理分类算法的不平衡数据,但是对于距离测量,这是否相同?据我所知,马氏距离并不明确取决于样本量。

因此,我问为什么这个措施会失去不平衡数据的可靠性

1个回答

马氏距离定义为点与分布之间的距离。关键是你如何定义分布,我想说类的不平衡不是问题本身。可能的问题是 mahalanobis 对初始化很敏感,并且您的类的样本量不是那么大。如果对您的任务合理,您可以检查协方差矩阵。

关于更一般的问题——两点之间的距离显然不取决于类的大小。如果我们谈论点和集合之间的距离,那么它可能会影响结果:即您将距离定义为到集合中最近点的距离,那么显然点越多,获得更近点的机会就越大。