我有大约 100MB 的 CSV 数据被清理并用于存储为 Panda DataFrame 的 Keras 训练。什么是保存它以进行快速读取的好(简单)方法?我不需要查询或加载其中的一部分。
一些选项似乎是:
- 高密度文件系统
- HDF5
- HDFS3
- PyArrow
我有大约 100MB 的 CSV 数据被清理并用于存储为 Panda DataFrame 的 Keras 训练。什么是保存它以进行快速读取的好(简单)方法?我不需要查询或加载其中的一部分。
一些选项似乎是:
对于 100MB 的数据,您可以将其以 CSV 格式存储在任何文件系统中,因为读取将花费不到一秒的时间。
大部分时间将花在数据帧运行时解析数据和创建内存数据结构上。
您可以在此处为每种方法找到一个很好的基准。
您的数据量并没有那么大,但是每当您处理大数据时,都会存在一些争论,在 Python 中存储数据的最佳方式是什么以及在 Python 中优化I/O 操作。它们都取决于序列化发生的方式以及在不同层中采用的策略。例如,安全性、有效交易等等。我想后一个链接可以帮助您处理大数据。