数据挖掘 - 大文件导致的内存问题 - 吾爱随笔录

我是 Python 新手，当然，我确信我会犯一些错误。这是我的问题，并提前感谢大家的帮助。

我有 2 个文件（一个是 Hive），另一个是CSV合并它们。我有 64GB 内存，我相信CSV我创建的文件大约 25+ GB。

我的问题是当我远程连接时，我看到内存使用率达到 100%，然后我什至无法远程连接我的工作站，它需要硬启动。

我在想的是，当我合并这两个表时，我喜欢保存CSV（比如说 100,000 行）并从内存中清除它并继续另外 100,000 行，追加到它，等等......

我不知道该怎么做，我在谷歌搜索中发现了一些，很可能是要读取大文件，但不确定在我阅读后（合并或合并期间），将每 100K 块写入 aCSV和从内存中清除它。

任何建议都会有所帮助。