因此,一位审阅者要求我为我的随机森林回归模型提供“P 值”。
我试图对此进行一些研究,但只找到了为每个拆分条件生成 p 值的方法(如在“party”包中)和变量重要性的 p 值(如在“rfPermute”包中)。我发现很难相信变量重要性的 p 值,因为一些非常重要的变量的 p 值 > 0.9。
任何关于如何为随机森林(如果有的话)生成一般“p值”的输入将不胜感激。
因此,一位审阅者要求我为我的随机森林回归模型提供“P 值”。
我试图对此进行一些研究,但只找到了为每个拆分条件生成 p 值的方法(如在“party”包中)和变量重要性的 p 值(如在“rfPermute”包中)。我发现很难相信变量重要性的 p 值,因为一些非常重要的变量的 p 值 > 0.9。
任何关于如何为随机森林(如果有的话)生成一般“p值”的输入将不胜感激。
如有疑问,请模拟或置换。
在这种特定情况下:
多次执行步骤 1-3,例如 1,000-10,000 次。在自变量和因变量之间没有关系的零假设下,您现在有了通过随机森林解释的 % 方差的经验分布。
将原始模型中解释的实际百分比方差插入此分布中,并注意基于排列的“空”百分比方差解释值的比例超过此真实值。这个比例就是你的 p 值。
如果您在标准线性回归模型中做同样的事情,您将(渐近地)获得解释方差的经典 F 检验的 p 值。
正如其他人所写的那样,您的审阅者听起来并不过分精通统计,但我在上面概述的方法是有道理的,应该让他满意。无论如何,这比就审稿人的统计能力进行匿名争论要好。