在库恩和约翰逊的应用预测建模中,作者写道:
最后,这些树受到选择偏差的影响:具有更多不同值的预测器比更精细的预测器更受青睐(Loh 和 Shih,1997;Carolin 等,2007;Loh,2010)。Loh 和 Shih (1997) 评论说:“当数据集包含信息变量和噪声变量,并且噪声变量比信息变量有更多的分裂时,就会发生危险。那么很有可能会选择噪声变量来分割树的顶部节点。修剪将产生具有误导性结构的树或根本没有树。”
库恩,马克斯;凯尔·约翰逊 (2013-05-17)。应用预测建模(Kindle Locations 5241-5247)。施普林格纽约。Kindle版。
他们继续描述了一些关于构建无偏树的研究。例如 Loh 的 GUIDE 模型。
尽可能严格地保持在 CART 框架内,我想知道是否可以做些什么来尽量减少这种选择偏差?例如,也许对高基数预测变量进行聚类/分组是一种策略。但是分组应该到什么程度呢?如果我有一个具有 30 个级别的预测器,我应该分组到 10 个级别吗?15?5?