决策树在执行递归二元分裂时,会选择一个自变量(比如 )和一个阈值(比如说 ) 使得预测空间被分割成区域 {} 和 {},这导致成本函数的最大降低。
现在让我们假设我们有一个变量,其categorical
值在 {}。假设我们对它进行了标签编码,并且它的值在 0 到 9 的范围内(10 个类别)。
- 如果 DT 使用上述算法拆分节点并将这 10 个值视为真实数值,是否会导致错误/误解的拆分?
- 它是否应该基于此变量
==
执行拆分?!=
但是,算法如何知道它是一个分类特征呢? - 此外,在这种情况下,one-hot 编码值是否更有意义?