检测过拟合的技术

机器算法验证 交叉验证 正则化 过拟合
2022-03-16 07:29:27

我有一个数据科学职位的面试。在采访中,有人问我如何确保模型不会过拟合。我的第一个答案是使用交叉验证来评估模型的性能。但是,面试官说即使是交叉验证也不能完全识别过拟合。然后我提到了正则化,但是面试官说这可以帮助减少过度拟合(我同意),但不能检测它。是否有其他技术可用于确保模型不会过度拟合?

1个回答

我相信,当询问过度拟合时,面试官正在寻找“教科书答案”,而您在那之后走了几步。

过度拟合的一个症状是训练集上的分类器性能优于测试集上的分类器性能。我将此答案称为“教科书答案”,因为它是常见答案和合理的近似值。

请注意,这个答案有很多开放式的结局。例如,过拟合有多大的差异?. 此外,数据集之间的性能差异不一定是由于过度拟合。另一方面,过拟合不一定会导致两个数据集的性能有显着差异。

交叉验证是一种评估学习器(例如决策树)在以前没有看到的数据上的表现的技术。然而,过拟合指的是一个特定的模型(例如,如果“f1”而不是“f2”预测为真)。它会向您展示学习者过度拟合此数据的倾向,但不会回答您的特定模型是否过度拟合。

为了过度拟合,模型需要复杂性,这就是正则化的帮助。它限制(或权衡)模型的复杂性。请注意,另一个过度拟合的来源是假设集大小(可以认为是可能模型的数量)。提前决定使用受限假设集是另一种避免过度拟合的方法。