机器算法验证 - 基于 ROC 和 PR 曲线的评估和组合方法 - 吾爱随笔录

基于 ROC 和 PR 曲线的评估和组合方法

机器算法验证鹏精确召回

2022-03-28 08:18:27

我正在评估和组合一些二元分类模型。我正在使用 ROC 和 PR 曲线来评估它们的性能。我遇到的问题是，当我尝试改进方法时，我正在改进 AUC-ROC，但 PR 曲线受到影响。例如： ROC曲线 PR曲线

顺便说一句，我实际上是在方法 1 中添加一个弱学习器以达到方法 2，然后再添加一个或两个弱学习器以达到方法 3。当我只评估 AUC-ROC 时，它看起来很好，但是当我看到PR曲线，看来我一直在降低性能。现在看来，弱学习者在排名较低的点上表现更好。但这仅适用于一个数据集训练/测试拆分。什么是调查正在发生的事情并想出一种使用弱学习器以改善 ROC 和 PR 曲线的方法？

更新：

为了可视化这一点，我展示了我添加到模型 1 中以到达模型 2 的弱学习器：弱中华弱公关

4个回答

我将陈述一些关于 ROC / PR 空间的事情，这些事情对你来说肯定是显而易见的，但我更愿意澄清。

ROC 空间在轴上是一减去特异性：，在轴上是灵敏度：。 $x$ $1-Sp$ $y$ $Se$
PR 空间在轴上是召回率，这是灵敏度的另一个名称：，在轴上是精度，这是正预测值的另一个名称：； $x$ $Re = Se$ $y$ $Pr = PPV$
如果是属于“正类”的概率，我们有 $p$
$P r = P P V = \frac{S e \cdot p}{(1 - S p) \cdot (1 - p) + S e \cdot p} .$ $Pr = PPV = {Se\cdot p \over (1-Sp)\cdot(1-p) + Se \cdot p}.$

ROC 空间中的“水平切片”对应于 PR 空间的“垂直切片”。从上面的等式很容易看出，当在 ROC 空间中，一条曲线（例如，您的第一张图的红色曲线）在第二条曲线（绿色曲线）的左侧，在 PR 空间中，对应的（红色) 曲线高于（绿色）曲线。

在您的第二张图中就是这种情况，但召回值除外。第一张图中 ROC 曲线的对应部分是 Se，它“粘”在轴上，你看不到任何东西。PR 空间的优势在于它有助于可视化该区域。 $< 0.1$ $< 0.1$ $y$

所以我在这些结果中没有看到矛盾：方法 3 确实比其他两个更好，除了 Sensitivity / Recall values，它对应于非常高的特异性值。 $< 0.1$

道德是，当你要求它具有非常高的特异性时，你改进分类器的方式会稍微降低它的性能。

这些都是非常微不足道的反射，但谁知道，这会有所帮助吗？

偏差（或 -2 对数似然）是统计上最敏感的度量。我会用它来比较模型。

对于使用 AUC 作为分类器性能度量的不平衡类，而不是 (0,1)-损失可能会产生误导。例如，参见Xue 和 Titterington “不平衡数据对 LDA 有负面影响吗？” . 对于二分类，(0,1)-损失通常是真正感兴趣的损失，因此您可能会发现直接处理该损失而不是 AUC 会提供更多信息。

我最终求助于使用逻辑回归（以及自适应样条曲线等类似模型）等来组合分数。我认为这个想法是堆叠的想法，并且之前已经使用过，例如here和here。

其它你可能感兴趣的问题

上一篇泊松偏差 - 那么零观测值呢？下一篇假设两个均值和方差相等的高斯分布，那么我们期望每个组的前 X 个成员有多大不同？