为什么决策树分类器不适用于分类值?

数据挖掘 Python 决策树 分类数据 特征缩放 变压器
2021-10-04 16:17:05

我正在学习我的方法,所以如果你发现任何错误,请对我放轻松,我真的可以在这里使用专业意见。谢谢。

我正在尝试将决策树分类器建模为集成(软投票系统)的一部分。问题是我已经将分类特征转换为整数值(即如果血压在中等范围内,那么数据集中的血压=2)。

特征变量的类别如下

特征#1(总胆固醇)= 1, 2, 3

特征#2(收缩压)= 1、2、3

特征#3(舒张压)= 1, 2, 3

特征#4(吸烟率)= 1、2、3

目标/类变量(笔画)= 1、2(分别为是和否)。

问题是,当我绘制 DT(请查看图片)时,我希望得到一个拆分决定,其中某个特征等于上述值之一(即 1、2、3)。但是,它给了我其他值,例如 1.5、0.5 等,

我已经为任何可以帮助我的人提供了代码和示例数据集。顺便说一句,我需要将当前数据集保持为数字格式,因为我将它与其他分类器一起用于软投票分类器。

是数据集,这是供参考的代码,我正在使用 Spyder 和 Python 3.7 在此处输入图像描述

2个回答

一切都好。

正是因为您的值在 1 和 2 之间,他才选择 1.5。换句话说,树将选择 1 和 2 作为值(整数而不是实数),但 1.5 是这些类之间的分界点。

您无需对输入变量执行任何操作并将输出转换为热编码。

至少不要对输出进行序数编码。