我是 Python 新手,当然,我确信我会犯一些错误。这是我的问题,并提前感谢大家的帮助。
我有 2 个文件(一个是 Hive),另一个是CSV合并它们。我有 64GB 内存,我相信CSV我创建的文件大约 25+ GB。
我的问题是当我远程连接时,我看到内存使用率达到 100%,然后我什至无法远程连接我的工作站,它需要硬启动。
我在想的是,当我合并这两个表时,我喜欢保存CSV(比如说 100,000 行)并从内存中清除它并继续另外 100,000 行,追加到它,等等......
我不知道该怎么做,我在谷歌搜索中发现了一些,很可能是要读取大文件,但不确定在我阅读后(合并或合并期间),将每 100K 块写入 aCSV和从内存中清除它。
任何建议都会有所帮助。