我对数据科学比较陌生,我很难理解为什么应用于不平衡数据集的马氏距离(或任何其他距离度量)变得不准确。我有一个数据集,由三个类 A、B 和 C 组成。A 类有100 个观察值,B 类有 60 个观察值,C 类有 20 个观察值。当我计算每个类之间的马氏距离时,结果似乎与我的 PCA(主成分分析)图不一致。在 PCA 图中,C 类是最独立的类;然而,马氏距离并没有反映这一点。
对于平衡数据集,即 A、B 和 C 类具有相同数量的观察值,这从来都不是问题。马氏距离总是相当准确地反映平衡数据的 PCA 结果。
我在这里阅读了一些类似的问题和答案,关于为什么必须仔细处理分类算法的不平衡数据,但是对于距离测量,这是否相同?据我所知,马氏距离并不明确取决于样本量。
因此,我问为什么这个措施会失去不平衡数据的可靠性?