CART 树是否捕获预测变量之间的交互?

机器算法验证 机器学习 分类 数据挖掘 大车
2022-03-12 17:40:35

本文声称在 CART,由于在每个步骤中对单个协变量执行二元拆分,因此所有拆分都是正交的,因此不考虑协变量之间的相互作用。

然而,相反,许多非常严肃的参考文献声称,树的层次结构保证了预测变量之间的交互是自动建模的(例如,这篇论文,当然还有 Hastie Elements of Statistical Learning 的书)。

谁是对的?CART 生长的树是否捕获输入变量之间的交互?

参考:

论文 1:Lee、Sun-Mi 和 Patricia A. Abbott。“用于在大型数据集中发现知识的贝叶斯网络:护士研究人员的基础知识。” 生物医学信息学杂志 36.4-5 (2003): 389-399。

论文 2:Elith、Jane、John R. Leathwick 和 Trevor Hastie。“增强回归树的工作指南。” 动物生态学杂志 77.4 (2008): 802-813。

2个回答

CART可以捕捉交互效果。当解释变量对响应变量的影响取决于 X_2 的水平之间的交互作用这发生在以下示例中:X1X2X1YX2

在此处输入图像描述

经济状况不佳(称为)的影响取决于所购买的建筑物类型()。投资办公楼时,经济状况不佳会使投资的预测价值减少 140,000 美元。但是当投资一栋公寓楼时,投资的预测价值会减少 20,000 美元。糟糕的经济状况对您投资的预测价值的影响取决于所购买的房产类型。这是一种交互作用。X1X2

简短的回答

CART 在捕获交互方面需要帮助。

长答案

采用精确的贪心算法(Chen 和 Guestrin,2016):

精确的贪心算法

叶子上的平均值将是一个条件期望,但在通往叶子的路上的每个分裂都是独立的。如果特征 A 本身无关紧要,但在与特征 B 的交互中很重要,则算法不会在特征 A 上分裂。没有这种分裂,算法就无法预见特征 B 上的分裂,这是生成交互所必需的。

树可以在最简单的场景中选择交互。如果您的数据集具有两个特征和目标之外没有任何可拆分的内容,因此,您将得到正确估计x1,x2y=XOR(x1,x2)x1x2XOR

由于具有许多特征、正则化和拆分数量的硬性限制,相同的算法可以省略交互。

解决方法

显式交互作为新功能

Zhang 的一个例子(“Winning Data Science Competitions”,2015):

张谈互动

非贪心树算法

在另一个问题中,Simone建议使用基于前瞻的算法和倾斜决策树

不一样的学习方式

一些学习方法可以更好地处理交互。

这是来自The Elements of Statistical Learning的表格(行“提取特征线性组合的能力”):

学习方法比较