如果给定一个庞大的数据集,为什么统计模型会过拟合?

机器算法验证 造型 大数据 过拟合
2022-03-03 12:05:57

我目前的项目可能需要我建立一个模型来预测特定人群的行为。训练数据集仅包含 6 个变量(id 仅用于识别目的):

id, age, income, gender, job category, monthly spend

其中monthly spend是响应变量。id, age, income, gender, job category但是训练数据集包含大约 300 万行,而要预测的数据集(包含但不包含响应变量)包含 100 万行。我的问题是:如果我将太多行(在这种情况下为 300 万行)放入统计模型中,是否有任何潜在问题?我知道计算费用是一个问题,还有其他问题吗?有没有完全解释数据集大小问题的书籍/论文?

2个回答

您可能会遇到两种问题:

1)计算机问题,因为数据集太大。这些天来,6 列的几百万行并没有那么大。但是,根据您的程序、您的计算机、您的 RAM 数量以及可能的其他因素,它可能会陷入困境。

2) 统计问题。在这里,像您讨论的问题将有一个我知道的“问题”:即使是微小的影响也会非常重要。这实际上不是回归的问题,而是 p 值的问题。最好查看效果大小(回归参数)。

3)您的模型的另一种问题不是由于行数,而是响应变量的性质(每月支出)。尽管 OLS 回归没有对响应的分布(仅关于误差)做出任何假设,但是,以货币作为因变量的模型通常具有非正态误差。此外,从本质上讲,记录响应日志通常是有意义的。在您的情况下是否如此取决于您正在尝试做什么。

重要的是个人(行)的数量与您需要为要拟合的模型估计的系数数量相比。典型的经验法则建议每个系数至少有 20 个观察值,因此您应该能够估计多达 150,000 个系数——对于您的四个预测变量来说肯定绰绰有余。

实际上,在这种情况下,您有机会,而不是问题:拟合一个相当复杂的模型,包括对预测变量的响应的非线性关系,以及预测变量之间的相互作用;与假设响应与预测变量的关系是线性和加性的更简单的相比,它可以更好地预测响应。