数据挖掘 - 什么时候适合在分类值上拆分数据集并生成nn代替模型？ - 吾爱随笔录

数据挖掘特征工程

2022-03-09 15:59:14

当面对分类属性时进行回归或分类时 $n$ 可能的值有两个选项：

方法 #2 的优点之一是它允许您进行更具体的特征工程。例如，如果您正在为房地产价格建模，并且您决定为住宅/工业物业制作单独的模型，您可以选择与每个相关的单独特征。

我能想到的方法＃2的另一个优点是它可以线性化其他非线性关系。例如，对于附近有铁轨的住宅物业，几乎总是会大大降低物业价值，而对于工业物业，它可能会极大地提升价值。

一般来说，决定方法#1 和#2 的因素有哪些？

1个回答

我已经尝试了 2 次，但从未证明比 1 更好。

我认为原因是，你提供给模型的数据越多越好。2的缺点是训练出来的模型比1中的模型使用的数据少。

此外，某些功能可能独立于组。例如，在对房地产价格进行建模时，位于市中心总是会增加住宅和工业的价格。

让我讨论用于表格数据的两个主要模型：

话虽如此，如果您有非常不同的类别，则可能值得拆分数据集，这只是尝试的问题。

其它你可能感兴趣的问题