在 pandas 中合并大型 CSV 文件

数据挖掘 Python 熊猫 数据 CSV
2021-09-16 18:47:50

我有两个 CSV 文件(每个文件大小以 GB 为单位),我正在尝试合并它们,但每次我这样做时,我的计算机都会挂起。有没有办法在熊猫本身中将它们合并成块?

2个回答

不,那里没有。您将不得不使用替代工具,如daskdrillspark或老式的关系数据库。

当遇到这种情况(加载和附加多 GB csv 文件)时,我发现@user666 的选项是将一个数据集(例如 DataSet1)加载为 Pandas DF 并将另一个(例如 DataSet2)以块的形式附加到现有的 DF 中相当可行。

这是我实现的代码:

import pandas as pd

amgPd = pd.DataFrame()
for chunk in pd.read_csv(path1+'DataSet1.csv', chunksize = 100000, low_memory=False):
    amgPd = pd.concat([amgPd,chunk])