机器算法验证 - 树中的选择偏差 - 吾爱随笔录

在库恩和约翰逊的应用预测建模中，作者写道：

最后，这些树受到选择偏差的影响：具有更多不同值的预测器比更精细的预测器更受青睐（Loh 和 Shih，1997；Carolin 等，2007；Loh，2010）。Loh 和 Shih (1997) 评论说：“当数据集包含信息变量和噪声变量，并且噪声变量比信息变量有更多的分裂时，就会发生危险。那么很有可能会选择噪声变量来分割树的顶部节点。修剪将产生具有误导性结构的树或根本没有树。”

库恩，马克斯；凯尔·约翰逊 (2013-05-17)。应用预测建模（Kindle Locations 5241-5247）。施普林格纽约。Kindle版。

他们继续描述了一些关于构建无偏树的研究。例如 Loh 的 GUIDE 模型。

尽可能严格地保持在 CART 框架内，我想知道是否可以做些什么来尽量减少这种选择偏差？例如，也许对高基数预测变量进行聚类/分组是一种策略。但是分组应该到什么程度呢？如果我有一个具有 30 个级别的预测器，我应该分组到 10 个级别吗？15？5?