风险预测与分类模型

数据挖掘 机器学习 神经网络 深度学习 统计数据 逻辑回归
2021-10-16 01:36:20

我正在研究二进制分类模型。目前,当我使用 scikit 逻辑回归时,它会输出二进制值,如 0 和 1。但是,我从在线阅读中了解到,它输出概率,并基于 0.5 的阈值将它们转换为两个类别。

1)建立风险预测模型是否意味着一旦我们得到概率输出就停止我们的项目而不应用这个阈值?这就是所谓的风险预测模型吗?如果是,我该如何使用 scikit 逻辑回归来做到这一点?

2) scikit logistic 是否允许我们修改阈值?

3)是否可以使用所有的分类算法,如 SVM、RF、XGBOOST 等来构建风险预测模型,而不需要去阈值截断?

1个回答

我会尽快回答你的问题。

  1. 是的,如果您将概率定义为风险,那么概率就是风险评分。但是,在这些场景中存在一个问题,您必须包含一个类的流行度来校准它们。如果人员 A 的风险评分为 0.9,但您观察到正类仅占数据的 20%,则实际风险远低于其自身的概率。您可以使用clf.predict_proba()函数来获取这些概率。
  2. 一旦你有了这些概率,你应该能够设置你的自定义阈值。
  3. 是的,不同库中的这些模型中的大多数都有predict_proba()功能。

如果您有更多问题,请告诉我。