数据挖掘 - 为什么不平衡的数据集会严重影响马氏距离测量？ - 吾爱随笔录

我对数据科学比较陌生，我很难理解为什么应用于不平衡数据集的马氏距离（或任何其他距离度量）变得不准确。我有一个数据集，由三个类 A、B 和 C 组成。A 类有100 个观察值，B 类有 60 个观察值，C 类有 20 个观察值。当我计算每个类之间的马氏距离时，结果似乎与我的 PCA（主成分分析）图不一致。在 PCA 图中，C 类是最独立的类；然而，马氏距离并没有反映这一点。

对于平衡数据集，即 A、B 和 C 类具有相同数量的观察值，这从来都不是问题。马氏距离总是相当准确地反映平衡数据的 PCA 结果。

我在这里阅读了一些类似的问题和答案，关于为什么必须仔细处理分类算法的不平衡数据，但是对于距离测量，这是否相同？据我所知，马氏距离并不明确取决于样本量。

因此，我问为什么这个措施会失去不平衡数据的可靠性？