我有一个巨大的文本文件,因此我正在逐行阅读它,应用一些基本的清理,并将 X 和 Y 分别写入 2 个不同的 csv 文件。此外,我正在为每个 csv 准备 3 个目录 - 训练、验证和测试,并将每一行作为单独的 csv 写入适当的目录 - 这有助于fit_generator()
方便地使用该方法,通过一次读取这些文件并训练模型。
担心的是,在训练之前,我已经对这些许多文件执行了预处理步骤,一次一个文件,这似乎不是一种实用的方法(它不会节省时间,因为操作不会'不被矢量化,除了磁盘上会有很多读/写,因为存储每个处理过的文件也是不可避免的),还有其他方法来处理这种情况吗?最佳实践是什么?自定义生成器函数是唯一的方法吗?感谢任何帮助。
更新:另外,如果我处理的数据集是一个 coo 矩阵怎么办?除了在写作之前将其转换为密集之外,还有其他可行的方法吗?此外,我关心的既不是最佳资源利用,也不是时间效率,更多的是处理这种情况的不同方法,一个例子可能会有所帮助。