问题示例:我们研究团队的一部分正在致力于提供可运行的风电预测。通常,由于预测用户的兴趣不同,因此每 15 分钟发布一次预测(甚至需要 5 秒),每 15 分钟发布一次预测,直到几天。显然,当您与风电场所有者签订合同时,他拥有许多风电场,可能是 10 甚至 1000 个风电场,具体取决于您与谁合作。在不久的将来,这个数字很可能会更大。现在,如果预测用户不仅想要点预测,还想要 100 个有趣的分位数的预测(即整个边际分布),并且如果他希望您年复一年地将所有内容存储在数据库中,那么您就开始修补......好的,这会产生很多数据。我'
编辑(根据@whuber 的评论):要使其变得至关重要,在 5 秒的时间范围内可能会很困难。但无论如何,这不是问题,只是一个例子(人们可以提供其他例子)
我的问题是:是否存在时间序列分布的压缩理论/最佳实践(即时间函数与分布空间中的值)。我同意您可以按分位数工作并应用专用于信号的简单压缩算法(可能基于小波),但我正在寻找更专用的东西。例如,如果您知道一切都可以很好地用高斯近似,那么分位数的分位数方法将是愚蠢的!
编辑(根据@whuber 的评论):问题实际上是如何将时间维度整合到压缩方案中,因此我不想选择始终相同的分位数子集。带有 gaussian 的注释不是专门用于示例的,它是一个示例,用于说明需要非常好的压缩的情况。另一个琐碎的评论(从理论方面)是:假设您有一个非常复杂的分布,无法用很少的分位数来概括,并且您连续观察了 1000 次。每次都存储它会很遗憾。