我有一个包含 99.95% 0 和 0.05% 1 作为目标的数据集。数据集包含百万行。我想建立一个二元分类模型,它可以正确预测几乎所有的 1,同时将误报保持在最低限度。
我在某处读过它,与 AUC-ROC 相比,AUC-PRC 是上述场景的更好指标。这是对的吗?
我有一个包含 99.95% 0 和 0.05% 1 作为目标的数据集。数据集包含百万行。我想建立一个二元分类模型,它可以正确预测几乎所有的 1,同时将误报保持在最低限度。
我在某处读过它,与 AUC-ROC 相比,AUC-PRC 是上述场景的更好指标。这是对的吗?
似乎都不合适。相反,将您想要的任何惩罚分数分配给两种错误(将 0 误认为 1,以及将 1 误认为 0)并将这些错误相加。这使您可以精确地控制权衡。
您可以查看 Precision、Recall 和 F1 分数,这不过是 Precision 和 Recall 的调和平均值。