机器算法验证 - 随机森林回归模型的 p 值 - 吾爱随笔录

机器算法验证 r p 值随机森林

2022-04-18 22:04:07

因此，一位审阅者要求我为我的随机森林回归模型提供“P 值”。

我试图对此进行一些研究，但只找到了为每个拆分条件生成 p 值的方法（如在“party”包中）和变量重要性的 p 值（如在“rfPermute”包中）。我发现很难相信变量重要性的 p 值，因为一些非常重要的变量的 p 值 > 0.9。

任何关于如何为随机森林（如果有的话）生成一般“p值”的输入将不胜感激。

1个回答

如有疑问，请模拟或置换。

在这种特定情况下：

多次执行步骤 1-3，例如 1,000-10,000 次。在自变量和因变量之间没有关系的零假设下，您现在有了通过随机森林解释的 % 方差的经验分布。

将原始模型中解释的实际百分比方差插入此分布中，并注意基于排列的“空”百分比方差解释值的比例超过此真实值。这个比例就是你的 p 值。

如果您在标准线性回归模型中做同样的事情，您将（渐近地）获得解释方差的经典 F 检验的 p 值。

正如其他人所写的那样，您的审阅者听起来并不过分精通统计，但我在上面概述的方法是有道理的，应该让他满意。无论如何，这比就审稿人的统计能力进行匿名争论要好。

其它你可能感兴趣的问题