特征选择过程应该应用于训练数据还是所有数据?

数据挖掘 特征选择 相关性
2021-09-27 14:06:48

我已经意识到,在示例和指南中,有时特征选择过程(相关消除,向后/逐步)在拆分所有数据后应用于训练数据,但另一方面,有时将其应用于所有数据。

那么有什么明确的答案吗?哪个更符合逻辑?

1个回答

与任何预处理步骤一样,必须使用训练数据进行特征选择,即选择要包含哪些特征的过程只能取决于训练集的实例。

一旦做出选择,即特征集是固定的,测试数据必须用完全相同的特征格式化。这一步有时被称为“应用特征选择”,但这是对语言的滥用:它只是用之前在训练阶段选择的特征准备测试数据。

对测试数据应用特征选择是一个错误,因为训练依赖于它,因此这意味着模型“已经看到”测试集的实例,因此使测试集的结果无效。