使用将在未来预测中固定值的特征进行训练是个好主意吗?

数据挖掘 特征选择 特征工程 特征构造
2021-09-19 04:40:59

我正面临一个回归问题,并且我有一个与输出相关的特征。此功能的价值将在我将使用此模型的所有预测中固定。

我应该将它保留在我的模型中吗?

谢谢

1个回答

鉴于在您的训练数据中,此特征具有不同的值和一些预测能力,我认为不保留此特征将是一个错误(不考虑由于具有太多特征而导致的过度拟合)。如果它确实影响目标,您不能只是从训练集中丢弃该特征,因为这样这些特征将来自与您的预测不同的人群,并且它将能够从其他特征中学习。

未来 x_2 将始终为 5 的极端示例:

x_1  x_2  y
2    8    6
3    7    5
2.5  5    1.5
3    5    0.5

仅删除 x_2 会丢失大量信息,并且会严重偏向更高的目标。