数据挖掘 - python中pandas读取内存不足如何处理 - 吾爱随笔录

数据挖掘机器学习熊猫

2022-02-27 11:20:13

我曾经pandas.read_csv读取一个巨大的文件进行机器学习，但我遇到了内存错误。

有人建议我设置 argchunksize但我需要排序、随机访问……等等。所以我需要将整个数据加载到内存中或使用其他方式。

我认为可能的一些方法是 Hadoop。另一种是增量训练，但它就像阅读 chunksize inread_csv

或者我可以使用其他软件/库/方式？

1个回答

我建议你使用 Dask。当我不得不用我的 4GB RAM 读取大数据时，我成功地使用了它。您可以在此处获得更多详细信息。

要读取 CSV，您可以执行以下操作：

import dask.dataframe as dd

csv_file = 'data.csv'
df = dd.read_csv(csv_file)

其它你可能感兴趣的问题