python中pandas读取内存不足如何处理

数据挖掘 机器学习 熊猫
2022-02-27 11:20:13

我曾经pandas.read_csv读取一个巨大的文件进行机器学习,但我遇到了内存错误。

有人建议我设置 argchunksize但我需要排序、随机访问……等等。所以我需要将整个数据加载到内存中或使用其他方式。

我认为可能的一些方法是 Hadoop。另一种是增量训练,但它就像阅读 chunksize inread_csv

或者我可以使用其他软件/库/方式?

1个回答

我建议你使用 Dask。当我不得不用我的 4GB RAM 读取大数据时,我成功地使用了它。您可以在此处获得更多详细信息。

要读取 CSV,您可以执行以下操作:

import dask.dataframe as dd

csv_file = 'data.csv'
df = dd.read_csv(csv_file)