我一直在玩 Titanic 数据集。这里Fare的列是一个连续变量。我读过有人说在分类模型中最好有分类变量而不是连续特征。所以我想知道如果我将年龄转换为分类箱会提高我的模型准确性吗?
连续变量会降低分类模型的准确性吗?
数据挖掘
机器学习
Python
2022-02-19 03:05:54
1个回答
一般来说,分类器没有具体的属性可以使用分类变量而不是连续变量。
您绝对可以尝试对变量进行分箱,但许多分类器(尤其是基于树的分类器)会在算法本身内以最佳方式隐式地对变量进行分箱。
如果您添加连续变量,并且分类器的性能没有提高,则很可能该变量不能预测目标,或者该变量携带的所有信息(在信息理论意义上)已经是由模型中已有的其他变量表示。
其它你可能感兴趣的问题