我有一些“分箱”的数字数据,但分箱在比例或分位数方面的大小不相等
例如,年龄变量为 [0-16), [16-21), [21-30), [30-45), [45-65), [65, ]
如果我将其保留为分类变量,则树将分别处理每个类别并折扣因子之间的有序关系。
如果我将其更改为序数变量,例如 [0, 1, 2, 3, 4, 5] 并保留一组标签以供以后报告,则树可能会分裂,例如 <2.5,这对我来说似乎更自然,但是无论如何,1 和 2 之间的距离与 2 和 3 之间的距离不同。
我倾向于第二种解决方案,但我会喜欢一些输入!