数据挖掘 - 更改不平衡数据中的参考类别会极大地影响错误率 - 吾爱随笔录

在处理试图预测客户流失的二元分类问题时，数据集是不平衡的，有 2000 个非流失案例的观察结果与 600 个流失案例的观察结果。

在使用 GLM 时，我看到当多数类 [非流失] 是参考级别时，我在两个级别 [流失非流失] 上得到约 40% 的错误率 [混淆矩阵]，但是当少数类被设置为参考时水平我在预测少数类或以某种方式预测所有事情都被预测为非流失情况时得到 100% 的错误率。

使用 SMOTE 平衡数据后，相同的趋势仍在继续，我应该如何解释这种行为。?

是不是在某种程度上说，非流失人群的用户与流失用户的行为相似，因此错误率很高，但同时非流失用户有一个与流失用户完全不同的子集？行为，因此当参考类是多数或非流失类时错误率较低。

Outcome on test data when majority class is set as the reference class:
Confusion Matrix (vertical: actual; across: predicted) for F1-optimal threshold:
             0   1    Error      Rate
    0      268 419 0.609898  =419/687
    1       46 168 0.214953   =46/214
    Totals 314 587 0.516093  =465/901

Outcome on test data minority class is set as the reference class:
Confusion Matrix (vertical: actual; across: predicted) for F1-optimal threshold:
                   1   0    Error      Rate
            1      3 211 0.985981  =211/214
            0      1 686 0.001456    =1/687
            Totals 4 897 0.235294  =212/901