我目前正在处理的数据集有100 多个 csv 文件,每个文件的大小都超过 250MB。这些文件包含从不同位置捕获的时间序列数据,并且所有文件都具有与列相同的特征。
据我了解,我必须将这些数据合并到一个单独的 csv文件中,才能在 CNN、RNN 或任何其他网络中使用这些数据,并且在完成后假定其超过 20GB。但由于 RAM 和计算限制,这是一个不可接受的文件大小。
有哪些方法可以减小 csv 文件的文件大小以将文件导入模型?
有没有更好的文件版本可以将它们转换成这样,所以不会占用太多空间?(我尝试了 .db 版本,但还不够)
有没有一种我没有想到的方法将文件单独加载到模型中,以便我可以继续使用这些 csv 文件的当前版本?