什么时候适合在分类值上拆分数据集并生成nn代替模型?

数据挖掘 特征工程
2022-03-09 15:59:14

当面对分类属性时进行回归或分类时n可能的值有两个选项:

  1. 将此属性直接输入到您的模型中。
  2. 将您的数据划分为n基于分类属性的片段并分别为每个片段训练模型。在推理过程中,根据相同的属性适当地选择模型。

方法 #2 的优点之一是它允许您进行更具体的特征工程。例如,如果您正在为房地产价格建模,并且您决定为住宅/工业物业制作单独的模型,您可以选择与每个相关的单独特征。

我能想到的方法#2的另一个优点是它可以线性化其他非线性关系。例如,对于附近有铁轨的住宅物业,几乎总是会大大降低物业价值,而对于工业物业,它可能会极大地提升价值。

一般来说,决定方法#1 和#2 的因素有哪些?

1个回答

我已经尝试了 2 次,但从未证明比 1 更好。

我认为原因是,你提供给模型的数据越多越好。2的缺点是训练出来的模型比1中的模型使用的数据少。

此外,某些功能可能独立于组。例如,在对房地产价格进行建模时,位于市中心总是会增加住宅和工业的价格。

让我讨论用于表格数据的两个主要模型:

  • 基于树的模型已经完成了您在第一点中描述的特征工程。如果该模型对收益有所贡献,则该模型已经进行了住宅/工业拆分,然后它将继续为每个组进行特定的拆分。
  • 线性模型:一般线性模型的泛化是混合模型,这与您在第二点中提到的一样,但保留一些结构,使其承认市中心更昂贵。

话虽如此,如果您有非常不同的类别,则可能值得拆分数据集,这只是尝试的问题。