我已经使用 xgboost 包(在 R 中)构建了一个模型,我的数据是不平衡的(5000 正对 95000 负),具有二进制分类输出 (0,1)。
我已经使用 ROC 曲线下的评估指标 Area 进行了交叉验证AUC,我现在认为这是错误的,因为这更适合用于平衡数据集。
我使用 Precision Recal 曲线下面积 (AUPRC) 和 Matthews 相关系数 (MCC) 分析模型的最终结果,但是我现在认为我应该也完全使用 AUPRC 和 MCC 评估交叉验证模型忘记AUROC。
我在使用 CV 和 AUPRC 和 MCC 评估指标的文献中找不到太多。
我只是想确保我的想法是正确的,并且我之前的评估方法是错误的,而 AUPRC / MCC 将是一个更好的方法。