机器算法验证 - 如果给定一个庞大的数据集，为什么统计模型会过拟合？ - 吾爱随笔录

如果给定一个庞大的数据集，为什么统计模型会过拟合？

机器算法验证造型大数据过拟合

2022-03-03 12:05:57

我目前的项目可能需要我建立一个模型来预测特定人群的行为。训练数据集仅包含 6 个变量（id 仅用于识别目的）：

id, age, income, gender, job category, monthly spend

其中monthly spend是响应变量。id, age, income, gender, job category但是训练数据集包含大约 300 万行，而要预测的数据集（包含但不包含响应变量）包含 100 万行。我的问题是：如果我将太多行（在这种情况下为 300 万行）放入统计模型中，是否有任何潜在问题？我知道计算费用是一个问题，还有其他问题吗？有没有完全解释数据集大小问题的书籍/论文？

2个回答

您可能会遇到两种问题：

1）计算机问题，因为数据集太大。这些天来，6 列的几百万行并没有那么大。但是，根据您的程序、您的计算机、您的 RAM 数量以及可能的其他因素，它可能会陷入困境。

2) 统计问题。在这里，像您讨论的问题将有一个我知道的“问题”：即使是微小的影响也会非常重要。这实际上不是回归的问题，而是 p 值的问题。最好查看效果大小（回归参数）。

3）您的模型的另一种问题不是由于行数，而是响应变量的性质（每月支出）。尽管 OLS 回归没有对响应的分布（仅关于误差）做出任何假设，但是，以货币作为因变量的模型通常具有非正态误差。此外，从本质上讲，记录响应日志通常是有意义的。在您的情况下是否如此取决于您正在尝试做什么。

重要的是个人（行）的数量与您需要为要拟合的模型估计的系数数量相比。典型的经验法则建议每个系数至少有 20 个观察值，因此您应该能够估计多达 150,000 个系数——对于您的四个预测变量来说肯定绰绰有余。

实际上，在这种情况下，您有机会，而不是问题：拟合一个相当复杂的模型，包括对预测变量的响应的非线性关系，以及预测变量之间的相互作用；与假设响应与预测变量的关系是线性和加性的更简单的相比，它可以更好地预测响应。

其它你可能感兴趣的问题

上一篇通过矩阵方程手动拟合的简单线性回归与 lm() 输出不匹配下一篇基于排列的 p 值所需的排列数