我已经意识到,在示例和指南中,有时特征选择过程(相关消除,向后/逐步)在拆分所有数据后应用于训练数据,但另一方面,有时将其应用于所有数据。
那么有什么明确的答案吗?哪个更符合逻辑?
我已经意识到,在示例和指南中,有时特征选择过程(相关消除,向后/逐步)在拆分所有数据后应用于训练数据,但另一方面,有时将其应用于所有数据。
那么有什么明确的答案吗?哪个更符合逻辑?
与任何预处理步骤一样,必须使用训练数据进行特征选择,即选择要包含哪些特征的过程只能取决于训练集的实例。
一旦做出选择,即特征集是固定的,测试数据必须用完全相同的特征格式化。这一步有时被称为“应用特征选择”,但这是对语言的滥用:它只是用之前在训练阶段选择的特征准备测试数据。
对测试数据应用特征选择是一个错误,因为训练依赖于它,因此这意味着模型“已经看到”测试集的实例,因此使测试集的结果无效。