树中的选择偏差

机器算法验证 大车 偏见
2022-04-05 13:59:23

在库恩和约翰逊的应用预测建模中,作者写道:

最后,这些树受到选择偏差的影响:具有更多不同值的预测器比更精细的预测器更受青睐(Loh 和 Shih,1997;Carolin 等,2007;Loh,2010)。Loh 和 Shih (1997) 评论说:“当数据集包含信息变量和噪声变量,并且噪声变量比信息变量有更多的分裂时,就会发生危险。那么很有可能会选择噪声变量来分割树的顶部节点。修剪将产生具有误导性结构的树或根本没有树。”

库恩,马克斯;凯尔·约翰逊 (2013-05-17)。应用预测建模(Kindle Locations 5241-5247)。施普林格纽约。Kindle版。

他们继续描述了一些关于构建无偏树的研究。例如 Loh 的 GUIDE 模型。

尽可能严格地保持在 CART 框架内,我想知道是否可以做些什么来尽量减少这种选择偏差?例如,也许对高基数预测变量进行聚类/分组是一种策略。但是分组应该到什么程度呢?如果我有一个具有 30 个级别的预测器,我应该分组到 10 个级别吗?15?5?

1个回答

根据您的评论,我将使用条件推理框架。使用 party 包中的 ctree 函数,代码在 R 中很容易获得。它具有无偏变量选择,虽然与 CART 相比,何时以及如何进行拆分的底层算法不同,但逻辑本质上是相同的。作者概述的另一个好处(请参阅此处的论文)是您不必担心修剪树以避免过度拟合。该算法实际上通过使用置换测试来确定拆分是否“具有统计意义”来解决这个问题。