我正计划构建一个分类模型来预测纽约出租车行程费用。CSV 数据文件非常大,包含 112 234 626 行(约 10 GB)。我已经设法将此文件下载到我计算机的本地磁盘上,但是当我开始使用此文件进行解析和模型构建时,会出现进一步的内存问题。
所以,我的问题是:
我应该从此数据文件中获取用于我的任务的最佳行数是多少?
我应该如何使用这些行来防止内存不足的问题?
我应该如何获取这些行,以便它包含所有月份的最佳样本。该文件包含 2018 年的数据,如果我采用行使其仅包含预先指定的行数,则例如数据框可能仅包含 1 月的数据(但我想要所有月份)。