我正在参加 Kaggle 竞赛房价:高级回归技术,以了解有关数据分析的更多信息。我想将多个模型应用于数据(正则化 LR、随机森林、神经网络和集成方法)。
在检查数据时,我发现许多字段是表示为分类数据的序数数据。两个例子:
HeatingQC: Heating quality and condition
Ex Excellent
Gd Good
TA Average/Typical
Fa Fair
Po Poor
LotShape: General shape of property
Reg Regular
IR1 Slightly irregular
IR2 Moderately Irregular
IR3 Irregular
我想知道是否应该保留这样的字段,或者是否应该将它们编码为整数(即给类别中的每个类一个数字,如 1、2、3 或 4)。由于问题可能是“视情况而定”,因此我希望您能给我一些更一般的见解,了解何时应保持此数据序数,或何时将其转换为整数。