我有一个关于不对称成本的一般性问题。在机器学习问题中,有时误报的成本与误报的成本不同。因此,应该以不同的方式构建模型以解决成本的这种不对称性。
随机森林如何做到这一点?
一些可能的方法是:
- 更改在考虑决策树给定分支中的不同拆分时计算的信息增益以解释不对称性
- 在给定决策树中分配正类的预测标签时,在每个叶子内从 0.5 调整阈值
- 在随机森林的预测标签上“投票”时,在决策树集合中从 0.5 调整阈值
- 使用 ROC 曲线并选择与通常选择的阈值不同的阈值(通常,选择最接近 ROC 图左上角的阈值作为“理想”)
在实践中,这些方法中的哪一种被实施来解释不对称成本?