在小 n、大 p 问题中限制基于树的集成方法?

机器算法验证 随机森林 小样本 集成学习
2022-03-02 09:18:58

基于树的集成方法,例如随机森林和后续衍生方法(例如条件森林),都声称在所谓的“小n,大p ”问题中有用,用于识别相对变量的重要性。确实,情况似乎如此,但我的问题是这种能力能走多远?一个人可以有 30 个观察值和 100 个变量吗?这种方法的突破点是什么,是否存在任何体面的经验法则?我更喜欢并将接受由实际证据(不是推测)链接支持的答案,使用模拟或真实数据集。我没有找到太多关于后者(这里这里),所以欢迎您的想法/建议/(关于主题)参考建议!

3个回答

我怀疑在进行一些模拟研究之前,这个问题不会有明确的答案。与此同时,我发现了 Genuer 等人的Random Forests:一些方法论见解有助于对这个问题提出一些看法,至少在针对各种“低 n、高 p”数据集测试 RF 方面。其中几个数据集有 >5000 个预测变量和 <100 个观察值!!

您将遇到的故障模式是,如果具有足够的随机特征,那么在用于每棵树的袋装样本中将存在与目标相关的特征,但在更大的数据集中不存在。与多次测试中看到的类似问题。

这方面的经验法则很难制定,因为发生这种情况的确切时间取决于数据中的噪声量和信号强度。还存在通过使用多个测试校正的 p 值作为分割标准来解决这个问题的方法,基于变量重要性进行特征选择步骤和/或将特征重要性与通过随机排列实际特征产生的人工对比特征进行比较,使用 out袋案例以验证拆分选择和其他方法。这些可能非常有效。

我在具有约 1000 个案例和 30,000-1,000,000 个特征的数据集上使用了随机森林(包括上述一些方法调整)。(具有不同特征选择或工程水平的人类遗传学数据集)。它们当然可以有效地恢复此类数据中的强信号(或批次效应),但不能很好地将诸如具有异源原因的疾病拼凑在一起,因为随机变化量克服了每个信号

它还取决于数据中的信号和噪声。如果您的因变量可以通过模型中的变量组合得到很好的解释,那么我认为您可以通过较低的 n/p 比率逃脱。

我怀疑除了比率之外,还需要绝对最小数量的 n 来获得一个像样的模型。

一种看待它的方法是,每棵树都是使用大约 SQRT(p) 变量构建的,如果这个数字很大并且点的数量是小树,那么可以在没有真正的模型的情况下进行拟合。因此,许多这种过度拟合的树会给出错误的变量重要性。

通常,如果在变量重要性图表中,我会看到许多重要程度几乎相同的顶级变量,我会得出结论,这只是给我带来了噪音。