如何为决策树中的连续变量选择分裂点?

数据挖掘 分类 数据 决策树
2021-10-04 22:31:26

我有两个与决策树有关的问题:

  1. 如果我们有一个连续的属性,我们如何选择分裂值?

    示例:年龄=(20,29,50,40....)

  2. 假设我们有一个连续的属性F有值的R. 如何编写找到分割点的算法v, 这样当我们分裂时F经过v,我们有一个最小增益F>v?

1个回答

为了得出一个分割点,对值进行排序,并根据某些度量(通常是信息增益或基尼杂质)评估相邻值之间的中点。对于您的示例,假设我们有四个示例,并且年龄变量的值是(20,29,40,50). 值之间的中点(24.5,34.5,45)被评估,并且无论哪种拆分都可以在训练数据上提供最佳信息增益(或您使用的任何指标)。

您可以通过仅检查位于不同类示例之间的拆分点来节省一些计算时间,因为只有这些拆分才能获得最佳信息。