概述和先前的研究
我正在寻找一种方法来存储(原则上是任意的)大型“3D 表”,以结合 python 进行插值/查找。
我考虑过
- CSV 文件,但据我所知,我会遇到从 2GB 开始的文件大小问题
- Pytables:据我了解,它接近于一个合适的数据库,这对我来说听起来有点矫枉过正
- PostgreSQL:在本地运行时,我可能会遇到内存+过度杀伤的问题
SE上有很多关于类似问题的问题,但我没有发现特定于python和插值方面的问题。
设置
我感兴趣的数据是 ~ (10.000 x 10.000 x 100),粗略估计我的 CSV 大小约为 200GB。原则上,我可以拆分最后一个维度并创建 100 个不同的 (10.000 x 10.000) 表,然后每个表将占用大约 2GB。
问题
对于此类问题,什么是合理的数据结构和 python 包?我知道在气象学中存在一个具有相应文件类型的“3D-pandas”,但我不记得/找不到它。
无需太多努力的大块评估也可能很重要。我正在尝试将此查找表与 JAX 一起使用,因此,如果您碰巧知道那里有一个好的解决方案,那将是完美的。
速度可能是个问题,这取决于我加载表格的频率。总执行时间为 10 小时。