数据挖掘 - 特征选择过程应该应用于训练数据还是所有数据？ - 吾爱随笔录

数据挖掘特征选择相关性

2021-09-27 14:06:48

我已经意识到，在示例和指南中，有时特征选择过程（相关消除，向后/逐步）在拆分所有数据后应用于训练数据，但另一方面，有时将其应用于所有数据。

那么有什么明确的答案吗？哪个更符合逻辑？

1个回答

与任何预处理步骤一样，必须使用训练数据进行特征选择，即选择要包含哪些特征的过程只能取决于训练集的实例。

一旦做出选择，即特征集是固定的，测试数据必须用完全相同的特征格式化。这一步有时被称为“应用特征选择”，但这是对语言的滥用：它只是用之前在训练阶段选择的特征准备测试数据。

对测试数据应用特征选择是一个错误，因为训练依赖于它，因此这意味着模型“已经看到”测试集的实例，因此使测试集的结果无效。

其它你可能感兴趣的问题