在 R 中处理随机森林包中的案例重量

机器算法验证 r 随机森林
2022-04-05 04:22:19

我检查了R 中randomForest的包和rfsrc包,但在训练随机森林模型时找不到一种简单的方法来应用观察/案例权重。有没有办法做到这一点?

作为替代方案,我考虑过复制我的观察结果(例如,如果观察结果的权重为 2,则复制一次),但认为这对于非整数大小写权重来说效率低下且困难。

2个回答

不要复制到重量增加的样品。这将使袋外交叉验证变得过于乐观。

分层和类权重都是在 randomForest 中实现的,这里有一些其他的线程。

具有非常不平衡的类的随机森林

加权随机森林的R包?类选项?

在随机森林模型中加权更新的数据

复制您的观察结果可能是个好主意。我知道WEKA允许每个实例使用不同的权重。

来自 WEKA 的维基

此功能存在于 Weka >= 3.5.8 的版本中。

权重可以与标准 ARFF 文件中的实例相关联,方法是将权重附加到该实例的行尾并将值括在花括号中。例如:

@data
0, X, 0, Y, "class A", {5}

对于稀疏实例,此示例如下所示:

@data
{1 X, 3 Y, 4 "class A"}, {5}

如果您仍想使用 R,您可以尝试使用RWeka包。