机器算法验证 - 具有连续输入变量的决策树 - 吾爱随笔录

机器算法验证大车

2022-03-08 12:04:41

众所周知，在构建决策树时，我们对输入变量进行了详尽的拆分，并通过统计测试方法或杂质函数方法找到“最佳”拆分。

我的问题是当我们使用连续变量作为输入变量（只有几个重复值）时，可能的拆分数量可能非常大，找到“最佳”拆分将非常耗时。数据科学家将如何处理它？

我已经阅读了一些材料，人们会对输入的级别进行聚类以限制可能的分裂。（示例）。但是，他们没有解释它是如何完成的。我们基于什么来聚类单变量变量？是否有更多详细信息的资源或任何人都可以详细解释？

谢谢！

1个回答

常用的方法是只检查某些 bin 作为分割点/阈值。我认为这就是您发布的演示文稿的作者所指的内容。假设您有一个包含 10 个样本 $X$

[1,3,4,6,2,5,18,10,-3,-5]

可能您不会从 10 个观察值中检查的每个值作为分裂点。相反，您将例如计算仅检查数据中的 20%、40%、60%、80% 分位数。所以你订购你的数据 $X$

[-5,-3,1,2,3,4,5,6,10,18]

并将您的数据“聚集”到垃圾箱中

[-5,-3],[1,2],[3,4],[5,6],[10,18]

因此，您只需检查 -1、2.5、4.5 和 8 作为可能的分割点（您在 bin 之间进行线性插值）

以下论文比较了如何选择分裂点进行测试的三个规则。我认为这就是您要搜索的内容。

@article{chickeringefficient, title={决策树中动态分裂点的有效确定}, author={Chickering, David Maxwell and Meek, Christopher and Routhwaite, Robert} }

其它你可能感兴趣的问题