我的问题是关于二元分类,比如区分好客户和坏客户,而不是回归或非二元分类。在这种情况下,随机森林是分类树的集合。对于每次观察,每棵树都投一个“是”或“否”,所有树的平均投票就是最终的森林概率。
我的问题是关于修改底层树的行为:我们如何修改 randomForest 函数(R 的 randomForest 包),以便每棵树投票一个十进制而不是二进制是/否。为了更好地理解我所说的十进制,让我们考虑一下决策树是如何工作的。
一棵成熟的决策树在其终端节点中有 1 个好实例或 1 个坏实例。假设我将终端节点大小限制为 100。那么终端节点将如下所示:
节点 1 = 80 坏,20 好
Node2 = 51 坏,49 好
Node3 = 10 坏,90 好
请注意,即使 Node1 和 Node2 投票“差”,它们的“差的强度”也大不相同。这就是我所追求的。不是让他们产生 1 或 0(这是默认行为),而是可以修改 R 包,以便他们投票 80/100、51/100、10/100 等?