在决策树的每个节点,我们必须选择一组特征进行拆分。
假设我们先验地知道特征可以划分为“相关”的子集,即这个划分描述了某人的帽子,而这个划分描述了他们的鞋子
在选择要拆分的功能时,是否有强制使用此分区?
就像你在选择功能,确保所有来自同一个分区。
在决策树的每个节点,我们必须选择一组特征进行拆分。
假设我们先验地知道特征可以划分为“相关”的子集,即这个划分描述了某人的帽子,而这个划分描述了他们的鞋子
在选择要拆分的功能时,是否有强制使用此分区?
就像你在选择功能,确保所有来自同一个分区。
也许您可以尝试先为您的数据集运行主成分分析 (PCA),然后使用这些成分作为变量来构建您的树。因此,在每次拆分时,树算法将从原始数据的特定组合中进行选择。
PCA 将构建描述数据中存在的特征的组件,例如变量之间的对比、整体大小……
一种简单的方法是创建与原始特征的每个子组相关联的新(复合)特征,并将这些新的复合特征提供给树模型。
否则,当前的树算法没有内置方法可以将相关特征的子组作为一个超级特征来处理。