数据挖掘 - 决策树中的数值变量 - 吾爱随笔录

决策树中的数值变量

数据挖掘决策树

2021-09-20 11:35:37

如果我们有数字变量，决策树将使用<和>比较作为分割标准。让我们考虑这种情况：如果我们的目标变量是1偶数值，0奇数值。如何处理这种类型的变量？如果我们有大量变量，如何识别这些类型的变量？这些类型的变量是否有任何特定名称？

1个回答

恐怕我会称之为糟糕的特征工程：作为 ML 系统的设计者，应该分析他们的数据并找到使 ML 系统尽可能好地运行的最佳方法。在这种情况下，通过为每个实例添加一个简单的特征x % 2，决策树可以完美地执行。

[补充] 即使在更复杂的模式的情况下，如果存在这样的数值“集群”，那么必须有一个合乎逻辑的解释为什么会发生这种情况，即取决于该问题专家可以分析的任务和理解。在大多数实际情况下，这意味着存在一些隐藏/中间变量，设计系统以使其代表这些变量是关键。换句话说，数值变量与预测响应变量在语义上并不直接相关，因为使用数值时的假设是它们的顺序很重要（这里数值的行为更像是一个分类变量）。

其它你可能感兴趣的问题

上一篇如何防止梯度消失或梯度爆炸？下一篇先做什么，交叉验证还是网格搜索？