我是机器学习的新手。我基本上对何时执行训练测试拆分感到困惑。
下面给出的顺序是否正确?
将整个数据拆分为训练集和测试集
从训练数据中提取特征
将分类模型拟合到从训练数据中提取的特征
从测试数据中提取在步骤 2 中计算的相同特征
将步骤 3 中的拟合模型应用于步骤 4 中从测试数据中提取的特征,以评估模型
我是机器学习的新手。我基本上对何时执行训练测试拆分感到困惑。
下面给出的顺序是否正确?
将整个数据拆分为训练集和测试集
从训练数据中提取特征
将分类模型拟合到从训练数据中提取的特征
从测试数据中提取在步骤 2 中计算的相同特征
将步骤 3 中的拟合模型应用于步骤 4 中从测试数据中提取的特征,以评估模型
您的程序通常是正确的。在更复杂的循环中,额外的操作可能包括验证、超参数优化、特征选择等。
通常,特征提取遵循探索性数据分析 (EDA),您可以在其中了解数据、分析/总结数据,得出直观的结论。在 EDA 中,您不一定要进行训练/测试拆分。
请注意,如果您在反馈循环中重复步骤 2-3,以便测试新提取的特征(例如交互变量)是否对模型有用,您将需要一个验证步骤。