CHAID 与 CRT(或 CART)

机器算法验证 spss 大车
2022-02-08 19:35:21

我正在使用SPSS对具有大约 20 个预测变量(分类很少)的数据集运行决策树分类。CHAID(卡方自动交互检测)和 CRT/CART(分类和回归树)给了我不同的树。谁能解释 CHAID 与 CRT 的相对优点?使用一种方法而不是另一种方法的含义是什么?

2个回答

我将列出一些属性,然后再给你我对它的价值的评估:

  • CHAID 默认使用多路拆分(多路拆分意味着当前节点被拆分为两个以上的节点)。这可能需要也可能不需要(它可以导致更好的片段或更容易解释)。但是,它肯定会减少节点中的样本大小,从而导致树的深度减少。当用于分割目的时,这可能会适得其反,因为 CHAID 需要大样本量才能正常工作。CART 默认进行二元拆分(每个节点拆分为两个子节点)。
  • CHAID 旨在处理分类/离散化目标(XAID 用于回归,但从那时起它们可能已被合并)。CART 绝对可以做回归和分类。
  • CHAID 使用预剪枝思想仅当满足显着性标准时才拆分节点。这与上述需要大样本量的问题有关,因为卡方检验在小样本中只有很小的功效(通过 Bonferroni 校正对多次检验有效地进一步降低了功效)。另一方面,CART 会长出一棵大树,然后将树修剪成较小的版本。
  • 因此 CHAID 试图从一开始就防止过拟合(只有拆分才存在显着关联),而CART 可能很容易过拟合,除非树被修剪回来。另一方面,这允许 CART 在样本内和样本外(对于给定的调整参数组合)表现得比 CHAID 更好。
  • 在我看来,最重要的区别是CHAID 中的分割变量和分割点选择不像 CART 那样强烈混淆当树用于预测时,这在很大程度上无关紧要,但当树用于解释时,这是一个重要问题:将算法的这两个部分高度混淆的树被称为“变量选择有偏差”(一个不幸的名字) . 这意味着拆分变量选择更喜欢具有许多可能拆分的变量(例如度量预测变量)。从这个意义上说,CART 是高度“有偏见的”,而 CHAID 则没有那么多。
  • 通过代理拆分,CART 知道如何处理缺失值(代理拆分意味着对于预测变量的缺失值 (NA),该算法使用其他预测变量,这些预测变量不如主要拆分变量“好”,但模仿主要拆分变量产生的拆分分离器)。CHAID 没有这样的事情。

因此,根据您的需要,如果样本有一定大小并且解释方面更重要,我建议使用 CHAID。此外,如果需要多路拆分或较小的树,则 CHAID 更好。另一方面,CART 是一个运行良好的预测机器,所以如果预测是你的目标,我会选择 CART。

所有单树方法都涉及数量惊人的多重比较,这会给结果带来极大的不稳定性。这就是为什么要实现令人满意的预测歧视,某种形式的树平均(装袋、提升、随机森林)是必要的(除了你失去了树的优势 - 可解释性)。单棵树的简单性在很大程度上是一种错觉。它们很简单,因为它们是错误的,因为将树训练为数据的多个大型子集将揭示树结构之间的巨大分歧。

我没有看过任何最近的 CHAID 方法,但 CHAID 在其最初的化身中是对数据过度解释的一个很好的练习。