我需要第二个验证集来选择模型类吗?

机器算法验证 机器学习 交叉验证 模型选择
2022-03-15 21:34:44

我想选择一个模型类(例如逻辑回归与随机森林),但验证集用于选择超参数。我应该留出第二个验证集来选择模型类吗?

我的想法:

  • 训练集:选择参数
  • 验证集:选择超参数
  • 第二个验证集:选择模型类(例如逻辑回归与随机森林)
  • 测试集:在看不见的数据上测试模型

或者我应该将模型类类似地视为超参数并根据验证集性能选择它?

此外,我们通过交叉验证应用验证集。我应该使用“嵌套”交叉验证来选择模型类吗?简历中的简历?

2个回答

在过去几年深度学习复兴之前,超参数调优曾经被称为模型选择。验证集的目的是在几个候选模型中进行选择。这些模型是否具有具有不同超参数的相同架构或完全不同的架构应该没有区别。

所以不,你不应该需要第二个验证集。

我现在实际上也在这样做!:) 我有 3 个模型类,逻辑、随机森林和 GP。

我的设计是这样的(使用 5 折交叉验证):

  • 训练数据集- 优化参数和超参数(不确定我们是否有相同的超参数定义;在我的例子中,这些是 GP 协方差矩阵的长度尺度)。

  • 验证数据集- 使用通用测试统计交叉验证模型并在类内和类之间进行比较

我想这应该是完全可以的,如果你有任何想法为什么这可能是一个问题,让我们讨论一下。