在小 n、大 p 问题中限制基于树的集成方法?
我怀疑在进行一些模拟研究之前,这个问题不会有明确的答案。与此同时,我发现了 Genuer 等人的Random Forests:一些方法论见解有助于对这个问题提出一些看法,至少在针对各种“低 n、高 p”数据集测试 RF 方面。其中几个数据集有 >5000 个预测变量和 <100 个观察值!!
您将遇到的故障模式是,如果具有足够的随机特征,那么在用于每棵树的袋装样本中将存在与目标相关的特征,但在更大的数据集中不存在。与多次测试中看到的类似问题。
这方面的经验法则很难制定,因为发生这种情况的确切时间取决于数据中的噪声量和信号强度。还存在通过使用多个测试校正的 p 值作为分割标准来解决这个问题的方法,基于变量重要性进行特征选择步骤和/或将特征重要性与通过随机排列实际特征产生的人工对比特征进行比较,使用 out袋案例以验证拆分选择和其他方法。这些可能非常有效。
我在具有约 1000 个案例和 30,000-1,000,000 个特征的数据集上使用了随机森林(包括上述一些方法调整)。(具有不同特征选择或工程水平的人类遗传学数据集)。它们当然可以有效地恢复此类数据中的强信号(或批次效应),但不能很好地将诸如具有异源原因的疾病拼凑在一起,因为随机变化量克服了每个信号
它还取决于数据中的信号和噪声。如果您的因变量可以通过模型中的变量组合得到很好的解释,那么我认为您可以通过较低的 n/p 比率逃脱。
我怀疑除了比率之外,还需要绝对最小数量的 n 来获得一个像样的模型。
一种看待它的方法是,每棵树都是使用大约 SQRT(p) 变量构建的,如果这个数字很大并且点的数量是小树,那么可以在没有真正的模型的情况下进行拟合。因此,许多这种过度拟合的树会给出错误的变量重要性。
通常,如果在变量重要性图表中,我会看到许多重要程度几乎相同的顶级变量,我会得出结论,这只是给我带来了噪音。