我目前的项目可能需要我建立一个模型来预测特定人群的行为。训练数据集仅包含 6 个变量(id 仅用于识别目的):
id, age, income, gender, job category, monthly spend
其中monthly spend
是响应变量。id, age, income, gender, job category
但是训练数据集包含大约 300 万行,而要预测的数据集(包含但不包含响应变量)包含 100 万行。我的问题是:如果我将太多行(在这种情况下为 300 万行)放入统计模型中,是否有任何潜在问题?我知道计算费用是一个问题,还有其他问题吗?有没有完全解释数据集大小问题的书籍/论文?