随机森林中的不对称或不等错误分类成本

机器算法验证 机器学习 随机森林 损失函数
2022-03-28 13:28:47

我有一个关于不对称成本的一般性问题。在机器学习问题中,有时误报的成本与误报的成本不同。因此,应该以不同的方式构建模型以解决成本的这种不对称性。

随机森林如何做到这一点?

一些可能的方法是:

  1. 更改在考虑决策树给定分支中的不同拆分时计算的信息增益以解释不对称性
  2. 在给定决策树中分配正类的预测标签时,在每个叶子内从 0.5 调整阈值
  3. 在随机森林的预测标签上“投票”时,在决策树集合中从 0.5 调整阈值
  4. 使用 ROC 曲线并选择与通常选择的阈值不同的阈值(通常,选择最接近 ROC 图左上角的阈值作为“理想”)

在实践中,这些方法中的哪一种被实施来解释不对称成本?

1个回答

错误分类成本通常可以通过类权重来处理,就像不平衡类一样。这意味着如果一个类的误分类成本较高,则该类的元素在进行预测时将更具影响力。

对于决策树和随机森林,Breiman 在这篇论文中已经证明了这一点,我想说的是把你问题的第 1 点和第 2 点放在一起。

事实上,加权随机森林使用加权版本的基尼系数来进行分割。这意味着当每个类的元素的加权和相等时,基尼系数将最大(通常,当元素在类内均匀分布时,基尼系数最大)(1)。同时,这也意味着考虑一个节点的多数类时使用的阈值不会是 0.5,而是来自于类权重的比率。最后,这也适用于预测(2),因为阈值将被权重修改。

不幸的是,直到今天我还不知道使用这种方法的任何主要统计包,因为类权重通常用于类的过采样/欠采样,这对于不平衡类更具体。

最后,当您的类别和/或成本不平衡时,始终建议使用 ROC 分数,以便您可以调整阈值以平衡分类器的结果。