数据挖掘 - 决策树的剪枝和参数缩减 - 吾爱随笔录

数据挖掘 Python 分类决策树降维

2022-02-22 14:33:39

我正在尝试使用决策树分类器执行分类。我想知道使用特征减少方法是否与决策树相关，因为它们会自动使用修剪？

我的想法是执行一个从 5 到 15 个参数减少的循环，然后比较每个决策树的分类精度，然后得出我的分类的最佳参数数量。

谢谢你。

1个回答

修剪和减少特征是不同的事情。

修剪：基本上是分别比较两片叶子的纯度，然后一起比较。如果叶子在一起更纯净，那么两片叶子就被修剪掉了。因此，在节点上对参数的决定被抹去。

假设您有N个不同的参数。您的树可能足够高，以至于对不同节点的所有参数都使用了修剪。同时，所有这些参数可能已在其他节点中使用。如果不是，决策树将自行决定不使用此参数 - 但不会防止过度拟合。

降维： 如果您减少参数的数量，那么这些参数将永远不会出现在您的树中的任何节点上。而它们可能在某些时候是相关的。

它们不是不兼容的，并且执行降维可能会增加您的任务对进一步分类器（如决策树）的准确性。

然而，决策树也被用于降维：在被训练之后，人们可能会扫描决策树内的特征重要性，即每个特征用于创建不同节点的分割的程度。基于这些新知识，您可以只使用最重要的特征来训练另一个分类器。

其它你可能感兴趣的问题