具有连续输入变量的决策树

机器算法验证 大车
2022-03-08 12:04:41

众所周知,在构建决策树时,我们对输入变量进行了详尽的拆分,并通过统计测试方法或杂质函数方法找到“最佳”拆分。

我的问题是当我们使用连续变量作为输入变量(只有几个重复值)时,可能的拆分数量可能非常大,找到“最佳”拆分将非常耗时。数据科学家将如何处理它?

我已经阅读了一些材料,人们会对输入的级别进行聚类以限制可能的分裂。示例)。但是,他们没有解释它是如何完成的。我们基于什么来聚类单变量变量?是否有更多详细信息的资源或任何人都可以详细解释?

谢谢!

1个回答

常用的方法是只检查某些 bin 作为分割点/阈值。我认为这就是您发布的演示文稿的作者所指的内容。假设您有一个包含 10 个样本X

[1,3,4,6,2,5,18,10,-3,-5]

可能您不会从 10 个观察值中检查的每个值作为分裂点。相反,您将例如计算仅检查数据中的 20%、40%、60%、80% 分位数。所以你订购你的数据X

[-5,-3,1,2,3,4,5,6,10,18]

并将您的数据“聚集”到垃圾箱中

[-5,-3],[1,2],[3,4],[5,6],[10,18]

因此,您只需检查 -1、2.5、4.5 和 8 作为可能的分割点(您在 bin 之间进行线性插值)

以下论文比较了如何选择分裂点进行测试的三个规则。我认为这就是您要搜索的内容。

@article{chickeringefficient, title={决策树中动态分裂点的有效确定}, author={Chickering, David Maxwell and Meek, Christopher and Routhwaite, Robert} }