如何为这个交叉验证曲线选择模型?

数据挖掘 模型选择 网格搜索
2022-03-08 16:58:20

我正在使用 GridSearchCV 来调整逻辑回归多类模型的超参数。

我在 Kaggle 上读到,您应该选择导致 CV 分数和训练分数之间差异最小的超参数,但在这种情况下,这会导致分数非常低。

我应该如何选择合适的 C 值以确保模型的通用性以及基于下面的 CV 曲线的高模型性能?

在此处输入图像描述

根据我的理解,选择两个分数之间的低差异可确保模型能够推广到看不见的数据。但另一方面,我希望在看不见的数据上获得尽可能高的分数。

谢谢你的帮助!

1个回答

选择最佳验证准确度是常见的做法,因为验证是看不见的数据。

有时你可能对验证集过度拟合,主要是如果它太小或不能很好地代表数据(例如,如果它有相当多的一个类的例子,那么一个好的模型应该是一个表明(几乎)一切都属于那个类)。

如果您担心过度拟合,可以增加正则化强度。