当我在阅读 Torgo 的 Data Mining with R 时,我发现与其他方法相比,精确/召回曲线的描述有所不同。通常,这些曲线基于一个阈值,该阈值确定哪个概率值足以决定事件何时发生,因此我们可以根据该值对未来事件进行分类。但是,Torgo 的描述如下:
准确率/召回率 (PR) 曲线是模型在准确率和召回率统计方面性能的直观表示。曲线是通过对不同工作点的统计值进行适当插值获得的。这些工作点可以通过模型提供的感兴趣类别排名的不同截止限制来给出。在我们的例子中,这将对应于应用于模型产生的异常值排名的不同努力限制。迭代不同的限制(即检查更少或更多的报告),我们得到不同的精度和召回值。PR 曲线允许这种类型的分析。
作者心目中的应用是欺诈检测问题,其中我们有一个分类任务fraud,结果是unknown和ok。我们想输出概率,对它们进行排名,选择第一个报告并能够检查它们。
这是精度/召回曲线中阈值的替代度量吗?我认为这是假设低于 0.5 的概率被归类为ok0.5 等于unknown和高于 0.5 的意思fraud。这是一个正确的假设吗?
非常感谢!