数据挖掘 - 使用和不使用生成器对庞大但有组织的文本数据进行预处理的方法 - 吾爱随笔录

我有一个巨大的文本文件，因此我正在逐行阅读它，应用一些基本的清理，并将 X 和 Y 分别写入 2 个不同的 csv 文件。此外，我正在为每个 csv 准备 3 个目录 - 训练、验证和测试，并将每一行作为单独的 csv 写入适当的目录 - 这有助于fit_generator()方便地使用该方法，通过一次读取这些文件并训练模型。

担心的是，在训练之前，我已经对这些许多文件执行了预处理步骤，一次一个文件，这似乎不是一种实用的方法（它不会节省时间，因为操作不会'不被矢量化，除了磁盘上会有很多读/写，因为存储每个处理过的文件也是不可避免的），还有其他方法来处理这种情况吗？最佳实践是什么？自定义生成器函数是唯一的方法吗？感谢任何帮助。

更新：另外，如果我处理的数据集是一个 coo 矩阵怎么办？除了在写作之前将其转换为密集之外，还有其他可行的方法吗？此外，我关心的既不是最佳资源利用，也不是时间效率，更多的是处理这种情况的不同方法，一个例子可能会有所帮助。