有点相关,但我认为这个问题足以证明一个单独的问题是正确的。
作为背景知识,我来自观察/统计流行病学背景,使用已经收集的数据,因此即使是我们的大型数据集也往往是离散的、不可分割的块。因此,我从未真正学会如何处理来自模拟的大量数据。
我的问题如下:
我正在研究感染系统的分区模型,涉及一个由约 10 个微分方程和约 40 个参数共享的系统。这些参数中的大多数不是常数,而是统计估计值,因此可以从分布中得出。这是我想做的事情之一 - 看看系统有多少变化纯粹是由于参数估计中的不确定性造成的。
这涉及从每个分布多次运行模型采样的数值解,以覆盖参数空间。如果这只是一个随机模拟,我可能会输出一个巨大的或数千个可以用脚本处理的小数据文件。我当前的问题是如何管理输出数据,因为我需要知道绘制了哪些参数值。
现在,我非常快速而肮脏的方法是将参数值与数值结果一起输出,这意味着如果我将系统运行 100 步,我最终会得到一个 100 行 50 列的数据集 - 但其中有 40 列是相同的数字一遍又一遍地重复。这似乎非常浪费,并且导致文件非常大。
当然有更好的方法来做到这一点?目前,其中大部分是在 Python 中实现的。