我有一个不平衡的数据集,其中阳性仅占整个样本的 10%。我正在使用逻辑回归和随机森林进行分类。在比较这些模型的结果时,我发现逻辑回归的概率输出范围在 [0,1] 之间,而随机森林的概率输出范围在 [0, 0.6] 之间。我无法分享数据集,但我怀疑这些算法的工作原理。随机森林如何产生小于 0.6 的概率?
不平衡数据集上的逻辑回归与随机森林
数据挖掘
随机森林
逻辑回归
2022-02-16 08:37:38
1个回答
RF 中的概率为 1,这意味着您的算法可以构造一个仅包含正样本的叶子。既然没有,这意味着您的特征没有解释输出的方差,或者您的算法拟合不足。
我建议您尝试通过使用交叉验证来优化 RF 的超参数,并使用一些过采样来减少数据集中的偏差。
其它你可能感兴趣的问题