当面对分类属性时进行回归或分类时可能的值有两个选项:
- 将此属性直接输入到您的模型中。
- 将您的数据划分为基于分类属性的片段并分别为每个片段训练模型。在推理过程中,根据相同的属性适当地选择模型。
方法 #2 的优点之一是它允许您进行更具体的特征工程。例如,如果您正在为房地产价格建模,并且您决定为住宅/工业物业制作单独的模型,您可以选择与每个相关的单独特征。
我能想到的方法#2的另一个优点是它可以线性化其他非线性关系。例如,对于附近有铁轨的住宅物业,几乎总是会大大降低物业价值,而对于工业物业,它可能会极大地提升价值。
一般来说,决定方法#1 和#2 的因素有哪些?