逻辑概率的随机森林类加权

数据挖掘 r 逻辑回归 随机森林
2022-02-24 11:17:28

我正在构建一个正在构建的模型,并且遇到了一些来自随机森林的奇怪输出,因为它与响应概率有关。在我的例子中,类分布非常不平衡,我的训练数据中有大约 45000 条记录,只有 300 条是响应者。所以我从无响应者中抽取了一个较小的样本,1000 个,所以我的训练数据总共是 1300 个。这工作得很好,但鉴于我改变了类的分布,输出的预测概率似乎需要以某种方式进行调整。

当我创建一个增益表时,第一个十分位数的预测响应率为 50%,但应该在 2% 左右。我在运行带有所有训练变量的 xgboost 模型时没有这个问题。

我知道在传统的逻辑回归中,如果您采用较小的样本,您可以对类别进行加权,以便它可以相应地调整预测概率。

有没有办法使用随机森林来解决这个问题?

0个回答
没有发现任何回复~