我曾经pandas.read_csv读取一个巨大的文件进行机器学习,但我遇到了内存错误。
有人建议我设置 argchunksize但我需要排序、随机访问……等等。所以我需要将整个数据加载到内存中或使用其他方式。
我认为可能的一些方法是 Hadoop。另一种是增量训练,但它就像阅读 chunksize inread_csv
或者我可以使用其他软件/库/方式?
我曾经pandas.read_csv读取一个巨大的文件进行机器学习,但我遇到了内存错误。
有人建议我设置 argchunksize但我需要排序、随机访问……等等。所以我需要将整个数据加载到内存中或使用其他方式。
我认为可能的一些方法是 Hadoop。另一种是增量训练,但它就像阅读 chunksize inread_csv
或者我可以使用其他软件/库/方式?
我建议你使用 Dask。当我不得不用我的 4GB RAM 读取大数据时,我成功地使用了它。您可以在此处获得更多详细信息。
要读取 CSV,您可以执行以下操作:
import dask.dataframe as dd
csv_file = 'data.csv'
df = dd.read_csv(csv_file)