解释精确召回曲线

数据挖掘 机器学习
2022-02-19 15:21:52

在此处输入图像描述

我已经为类不平衡的二元分类问题绘制了上述精度召回曲线。类别是负面的或正面的 有 3018 个观察值,其中 550 个是正面的。这意味着只有大约 18% 的数据是阳性结果。我从这里读到,精确召回曲线的基线是正数与观察数的比率(在平衡数据集中,基线为 0.5)。这与始终固定的 AUC 基线不同。

Precision Recall AUC 分数仅为 0.44,但 ROC AUC 分数为 0.72。这到底是什么意思?我知道 ROC AUC 对不平衡数据集具有误导性,但仅 0.44 的精确召回 AUC 分数似乎非常低。我如何解释这个?真的是差评吗?参考基线,我如何理解这条曲线?

1个回答

仅 0.44 的精确召回 AUC 分数似乎非常低。

我同意,但是您的模型肯定学到了一些东西,因为您超越了幼稚的基线(技术术语而不是批评!)根据您要预测的内容,AUC 可能令人印象深刻或令人失望。出于类似的原因,您在此处训练的模型可能照样有用,或者可能没有达到最低可行的性能水平。

我如何解释这个?

当您的模型能够检索到一半的正样本(约 50% 的召回率)时,它识别为正的样本中大约有一半实际上是负样本(约 50% 的精度)。除此之外,当我们试图获得更大的召回率时,精度会降低,这是我们所期望的。

真的是差评吗?

有没有人试图预测你之前试图预测的事情?也许您可以将自己与一个更复杂的基线进行比较。如果没有,你需要做更多的工作来确定你是否可以做得更好。对于不平衡的数据集,梯度提升树是超越幼稚(不发生学习)基线的良好基线。如果您还没有尝试过类似 xgboost 的方法。将您刚刚训练的模型作为新的基线并尝试其他一些东西

参考基线,我如何理解这条曲线?

您使用的基线表示如果您总是预测样本为阳性,您会看到的精度。这显然会导致 100% 的召回率。如果您的模型在精度方面超出此范围,则在图表上的任何位置,它都可能正在学习一些东西。很明显,情况确实如此,因为它一直做得更好。