我使用二进制目标类将随机森林拟合到我的数据集。根据 ROC 曲线,我将概率截止值重置为低得多的值,而不是默认的 0.5。然后我可以提高灵敏度(召回),但同时牺牲了精度。
只是想确认默认的 0.5 没有多大意义,并且在实践中通常从 ROC 曲线得出一个实用的概率截止值。我在随机森林和其他基于树的模型的应用上是否走在正确的轨道上。
我使用二进制目标类将随机森林拟合到我的数据集。根据 ROC 曲线,我将概率截止值重置为低得多的值,而不是默认的 0.5。然后我可以提高灵敏度(召回),但同时牺牲了精度。
只是想确认默认的 0.5 没有多大意义,并且在实践中通常从 ROC 曲线得出一个实用的概率截止值。我在随机森林和其他基于树的模型的应用上是否走在正确的轨道上。
是的,你完全正确。0.5 只是一个启发式的,ROC 曲线和精确召回曲线可以更好地了解截止应该是什么。然后,您可以使用 predict_proba,提取概率并根据您从 ROC 曲线推断出的截止值进行分类。精确召回曲线
是的,0.5 是标准截止值。它始终取决于业务问题,您应该使用什么阈值概率将值分类为 0 或 1。
例如 - 如果您正在构建欺诈模型,则欺诈概率为 0.3 及以上的人可能会被标记为欺诈。或者,如果您正在构建一些相似度矩阵,则可以在 0 处取小于 0.7 的值。
因此,ROCR 曲线有助于确定特定业务问题的确切截止百分比。