什么是存储处理后的 CSV 数据以在 Python 中训练模型的好方法?

数据挖掘 Python 喀拉斯 数据集 CSV 序列化
2022-02-14 12:40:03

我有大约 100MB 的 CSV 数据被清理并用于存储为 Panda DataFrame 的 Keras 训练。什么是保存它以进行快速读取的好(简单)方法?我不需要查询或加载其中的一部分。

一些选项似乎是:

  • 高密度文件系统
  • HDF5
  • HDFS3
  • PyArrow
3个回答

对于 100MB 的数据,您可以将其以 CSV 格式存储在任何文件系统中,因为读取将花费不到一秒的时间。

大部分时间将花在数据帧运行时解析数据和创建内存数据结构上。

您可以在此处为每种方法找到一个很好的基准

在此处输入图像描述

您的数据量并没有那么大,但是每当您处理大数据时,都会存在一些争论,在 Python 中存储数据的最佳方式是什么以及在 Python 中优化I/O 操作它们都取决于序列化发生的方式以及在不同层中采用的策略。例如,安全性、有效交易等等。我想后一个链接可以帮助您处理大数据。