为可以调整多个阈值的决策树构建 ROC 是否有意义?

数据挖掘 机器学习 分类 混淆矩阵
2022-02-25 16:32:30

我理解当输出是概率时构建 ROC 曲线,例如,来自逻辑回归模型。您可以通过改变截止阈值来构建 ROC 曲线。

但是这种形式的决策树呢:

if attribute_1 > x:
  decision = positive
else:
  if attribute_2 < y:
     decision = position
  else: 
     decision = negative

您可以调整这两个属性的截止值,所有这些都会影响您的混淆矩阵。当有多个阈值时,构建 ROC 曲线是否有意义?

谢谢

2个回答

ROC 曲线与模型的工作方式无关,而是与它的输出有关。如果目标是二元的并且您的模型输出介于 0 到 1 之间的任何值(例如 [0, 0.2, 0.4, ..., 1] 或连续概率),那么构建 ROC 曲线是有意义的。相反,如果您的模型的唯一输出是 0 或 1,那么 ROC 曲线将毫无用处,计算精度和召回率等更简单的指标会更有意义。

我说这是有道理的。

ROC 曲线绘制灵敏度和特异性。虽然这些是阈值的函数,但阈值本身不会出现在 ROC 曲线上。

因此,当您在阈值的各种值下计算敏感性和特异性时,您会得到可以放在图表上的敏感性-特异性配对。

我没有这两种情况的例子,但我发现这样的情节可能会表现出奇怪的行为,例如减少或形成循环,这似乎是合理的。这将向我表明我的方法可能没有多大意义,但没有什么能阻止你绘制这些点。