决策树中的数值变量

数据挖掘 决策树
2021-09-20 11:35:37

如果我们有数字变量,决策树将使用<>比较作为分割标准。让我们考虑这种情况:如果我们的目标变量是1偶数值,0奇数值。如何处理这种类型的变量?如果我们有大量变量,如何识别这些类型的变量这些类型的变量是否有任何特定名称?

1个回答

恐怕我会称之为糟糕的特征工程:作为 ML 系统的设计者,应该分析他们的数据并找到使 ML 系统尽可能好地运行的最佳方法。在这种情况下,通过为每个实例添加一个简单的特征x % 2,决策树可以完美地执行。

[补充] 即使在更复杂的模式的情况下,如果存在这样的数值“集群”,那么必须有一个合乎逻辑的解释为什么会发生这种情况,即取决于该问题专家可以分析的任务和理解。在大多数实际情况下,这意味着存在一些隐藏/中间变量,设计系统以使其代表这些变量是关键。换句话说,数值变量与预测响应变量在语义上并不直接相关,因为使用数值时的假设是它们的顺序很重要(这里数值的行为更像是一个分类变量)。