是否应该将确定性模型训练拆分为训练数据集、测试数据集?

数据挖掘 机器学习 算法
2022-03-11 07:24:57

我正在研究 GLM 模型(OLS、Logistic 回归、零膨胀等)之间的区别,这些模型是确定性的,因为我们可以准确地推断出参数,以及一些 CART 模型(随机森林、LightGBM、CatBoost 等)。基于随机预测。

我听说对于随机模型,我们应该分成训练和测试以避免过度拟合,这在确定性模型中不会发生,因为它们使用线性规划来寻找最佳参数。

我想开始一些关于它的讨论。

我的意见是,这是真的。确定性模型只是求解方程,它根本不应该过度拟合数据,它不同于基于随机性进行预测的随机模型。

但是我发现每门课程都说要拆分每个数据集,无论其是否具有确定性。

3个回答

您缺少的一点是:您如何知道在您的数据集上表现良好的模型可以泛化?您唯一的可能是在看不见的数据上测试您的模型。这就是为什么您应该将数据集拆分为训练集和测试集的原因。

在这种情况下,您不需要验证集。因为没有要优化的超参数,所以不需要它。

一个简单的反例:对由两点组成的训练集应用线性回归。通过构建,线性模型完美地拟合了训练数据。然而,它不太可能完美地拟合任何现实的测试集,实际上它通常根本无法很好地拟合测试集。

该模型会过拟合,评估它的唯一方法是将其应用于测试集。

您应该始终将数据拆分为训练集和测试集。模型是否具有确定性没有相关性;所有模型都可以过拟合。如果你给它足够的特征,你可以过拟合 Logistic 回归。此外,决策树通常是确定性的,并且因过度拟合而臭名昭著。