背景:我有一些数据适合随机森林分类器(二进制输出),其中 1 是非常罕见的事件。特别是,在我的训练集中,29400 个点中只有 614 个 1。我正在使用 sklearn RandomForestClassifier。
我正在设置class_weight = balanced
以防止模型简单地预测每种情况下的 0。而且效果很好!
但是,我希望我的模型捕获 0 类中的一小部分(可能只有 20 - 30 个案例)(编辑:实际上大约 300 个)。我相信由于构建树时的采样性质,这些类不经常选择。有没有已知的方法来解决这个问题?
我的想法:
在 RF 之后添加一个额外的滤波器。麻烦的是,对于这 20 -30 个否定案例,很难找到一些简单的分类方法。
在构建树时强制 RF 包含这些样本。因此这篇文章...
谢谢。