我正在使用具有许多潜在预测变量的数据集,例如:
年龄:连续
孩子的数量:离散和数字
婚姻状况:分类(已婚/单身/离婚..)
Id_User:分类(与此人进行第一次采访的用户的 ID)
我停在四个潜在的预测因素上,还有更多,但为了简短起见,这些足以问我的问题。
问题:连续特征很容易处理、规范化并将其提供给模型,那么分类和独立 呢?
注意:我知道遵循某种模式的分类特征可以编码为整数并提供给模型,但是如果这些分类特征作为整数没有意义(1 表示单身,2 表示已婚,3 表示离婚;对于模型将其视为定量预测器,因此将其提供给它是没有意义的)
有什么方法可以处理这些不同类型的功能?