什么评估指标用于高级不平衡,我想捕获数据集中的大部分正面(一个)

机器算法验证 r 分类 不平衡类 公制 模型评估
2022-04-03 02:52:10

我有一个包含 99.95% 0 和 0.05% 1 作为目标的数据集。数据集包含百万行。我想建立一个二元分类模型,它可以正确预测几乎所有的 1,同时将误报保持在最低限度。

我在某处读过它,与 AUC-ROC 相比,AUC-PRC 是上述场景的更好指标。这是对的吗?

3个回答

似乎都不合适。相反,将您想要的任何惩罚分数分配给两种错误(将 0 误认为 1,以及将 1 误认为 0)并将这些错误相加。这使您可以精确地控制权衡。

您可以查看 Precision、Recall 和 F1 分数,这不过是 Precision 和 Recall 的调和平均值。

您的阅读是正确的,因为与 AUC-ROC 相比,AUC-PRC 是不平衡分类的更好指标。我不同意 Kodi 的观点,即 AUC 在这些情况下可能有用。就像 Santanu 所说,您可以寻找精确度、召回率和 F1。我想添加灵敏度和 Kappa。

然而,度量的选择不仅仅是处理不平衡分类的方法。您可以寻找诸如 SMOTE 之类的采样技术,将其转换为具有偏差阈值的概率估计问题以及此处其他地方讨论的其他技术。