据我了解,将数据拆分为训练数据和测试数据的目的是确保您不会过度拟合数据。因此,为什么需要在线性回归中将数据拆分为训练数据和测试数据?线性回归中是否存在过度拟合数据的风险?有什么我想念的吗?
您需要为线性回归拆分数据吗?
线性回归模型可能会过度拟合您的训练数据。这是学习的功能:
当您有许多变量而没有足够的数据时,您的模型可能会通过过度加权不重要的变量来过度拟合数据。
正如一句话:您将数据拆分为训练集和测试集,以便能够获得对学习模型的真实评估。如果您使用训练数据评估您的学习模型,您将获得对模型优度的乐观衡量。因此,您应该使用单独的集合(在训练期间看不到的集合)来获得对模型的真实评估。
统计社区和机器学习社区有“不同”的方法来控制过拟合。
许多统计学家遵循“简约原则(奥卡姆剃刀)”,意思是“对给定现象给出一组同样好的解释,正确的解释是最简单的解释”。因此,人们会小心地将变量添加到模型中(在添加之前运行许多假设检验)。还有许多回归诊断工具可以检查模型的有效性。在这样的设置下,即使没有测试数据集,人们也可以有效地避免过拟合。请注意,您不会经常看到来自统计社区的具有数千个变量的线性模型。
对于机器学习社区的人来说,与统计学家相比,他们检查假设的次数更少,您可能会看到人们经常在数千或数百万个变量上使用线性模型。他们控制过度拟合的方法是使用测试数据。
总而言之,如果它可以拟合,它可以过拟合。虽然线性模型具有高偏差,但也可能存在过拟合问题。不同社区的人有不同的方法来控制过拟合问题。使用测试数据集是其中一种方法。如果特征/自变量很大,并且未经仔细验证就添加到模型中,则需要测试数据。
在这种情况下,术语过拟合通常用于表示模型在训练集上表现良好,但在附加数据(= 测试数据)上未能取得良好结果。
使用所有数据的最小二乘法将在基础数据上表现良好(就预测误差而言),因为最小二乘模型恰好适合使用这些数据点。
但是,当然,这并不能保证它在任何新数据上都会表现出相同的效果——尤其是在实际数据集的实践中。当然,这也适用于其他统计方法。
如果有可能将数据集划分为训练集和测试集,则应该这样做以衡量其性能。
如果您正在构建预测模型,则需要拆分数据以避免过度拟合。如果线性回归的目标只是研究和分析数据,则不需要拆分数据。