机器算法验证 - 在 R 中处理随机森林包中的案例重量 - 吾爱随笔录

机器算法验证 r 随机森林

2022-04-05 04:22:19

我检查了R 中randomForest的包和rfsrc包，但在训练随机森林模型时找不到一种简单的方法来应用观察/案例权重。有没有办法做到这一点？

作为替代方案，我考虑过复制我的观察结果（例如，如果观察结果的权重为 2，则复制一次），但认为这对于非整数大小写权重来说效率低下且困难。

2个回答

不要复制到重量增加的样品。这将使袋外交叉验证变得过于乐观。

分层和类权重都是在 randomForest 中实现的，这里有一些其他的线程。

复制您的观察结果可能是个好主意。我知道WEKA允许每个实例使用不同的权重。

来自 WEKA 的维基：

此功能存在于 Weka >= 3.5.8 的版本中。

权重可以与标准 ARFF 文件中的实例相关联，方法是将权重附加到该实例的行尾并将值括在花括号中。例如：

@data
0, X, 0, Y, "class A", {5}

对于稀疏实例，此示例如下所示：

@data
{1 X, 3 Y, 4 "class A"}, {5}

如果您仍想使用 R，您可以尝试使用RWeka包。

其它你可能感兴趣的问题