机器算法验证 - CHAID 与 CRT（或 CART） - 吾爱随笔录

CHAID 与 CRT（或 CART）

机器算法验证 spss 大车

2022-02-08 19:35:21

我正在使用SPSS对具有大约 20 个预测变量（分类很少）的数据集运行决策树分类。CHAID（卡方自动交互检测）和 CRT/CART（分类和回归树）给了我不同的树。谁能解释 CHAID 与 CRT 的相对优点？使用一种方法而不是另一种方法的含义是什么？

2个回答

我将列出一些属性，然后再给你我对它的价值的评估：

CHAID 默认使用多路拆分（多路拆分意味着当前节点被拆分为两个以上的节点）。这可能需要也可能不需要（它可以导致更好的片段或更容易解释）。但是，它肯定会减少节点中的样本大小，从而导致树的深度减少。当用于分割目的时，这可能会适得其反，因为 CHAID 需要大样本量才能正常工作。CART 默认进行二元拆分（每个节点拆分为两个子节点）。
CHAID 旨在处理分类/离散化目标（XAID 用于回归，但从那时起它们可能已被合并）。CART 绝对可以做回归和分类。
CHAID 使用预剪枝思想。仅当满足显着性标准时才拆分节点。这与上述需要大样本量的问题有关，因为卡方检验在小样本中只有很小的功效（通过 Bonferroni 校正对多次检验有效地进一步降低了功效）。另一方面，CART 会长出一棵大树，然后将树修剪成较小的版本。
因此 CHAID 试图从一开始就防止过拟合（只有拆分才存在显着关联），而CART 可能很容易过拟合，除非树被修剪回来。另一方面，这允许 CART 在样本内和样本外（对于给定的调整参数组合）表现得比 CHAID 更好。
在我看来，最重要的区别是CHAID 中的分割变量和分割点选择不像 CART 那样强烈混淆。当树用于预测时，这在很大程度上无关紧要，但当树用于解释时，这是一个重要问题：将算法的这两个部分高度混淆的树被称为“变量选择有偏差”（一个不幸的名字） . 这意味着拆分变量选择更喜欢具有许多可能拆分的变量（例如度量预测变量）。从这个意义上说，CART 是高度“有偏见的”，而 CHAID 则没有那么多。
通过代理拆分，CART 知道如何处理缺失值（代理拆分意味着对于预测变量的缺失值 (NA)，该算法使用其他预测变量，这些预测变量不如主要拆分变量“好”，但模仿主要拆分变量产生的拆分分离器）。CHAID 没有这样的事情。

因此，根据您的需要，如果样本有一定大小并且解释方面更重要，我建议使用 CHAID。此外，如果需要多路拆分或较小的树，则 CHAID 更好。另一方面，CART 是一个运行良好的预测机器，所以如果预测是你的目标，我会选择 CART。

所有单树方法都涉及数量惊人的多重比较，这会给结果带来极大的不稳定性。这就是为什么要实现令人满意的预测歧视，某种形式的树平均（装袋、提升、随机森林）是必要的（除了你失去了树的优势 - 可解释性）。单棵树的简单性在很大程度上是一种错觉。它们很简单，因为它们是错误的，因为将树训练为数据的多个大型子集将揭示树结构之间的巨大分歧。

我没有看过任何最近的 CHAID 方法，但 CHAID 在其最初的化身中是对数据过度解释的一个很好的练习。

其它你可能感兴趣的问题

上一篇组织 R 代码和输出的有效方法是什么？下一篇解释堵塞逻辑回归的估计