我正在做一个小项目,我的数据集有 6k 行和大约 300 个特征,具有简单的二进制结果。
由于我仍在学习 ML,因此我想尝试所有可以找到并比较结果的算法。
正如我在教程中所读到的,我将我的数据集分为训练样本 (80%) 和测试样本 (20%),然后使用交叉验证 (5 折) 在训练样本上训练我的算法。
我的计划是以这种方式训练我所有的模型,然后在测试样本上测量它们的性能以选择最佳算法。
这会导致过拟合吗?如果是这样,由于我无法比较内部的几个模型model_selection.GridSearchCV
,我该如何防止它过度拟合?