压缩理论,实践,用于具有分布空间中的值的时间序列(例如真正的随机变量)

机器算法验证 分布 时间序列 信号处理 分位数 压缩
2022-03-27 14:54:06

问题示例:我们研究团队的一部分正在致力于提供可运行的风电预测。通常,由于预测用户的兴趣不同,因此每 15 分钟发布一次预测(甚至需要 5 秒),每 15 分钟发布一次预测,直到几天。显然,当您与风电场所有者签订合同时,他拥有许多风电场,可能是 10 甚至 1000 个风电场,具体取决于您与谁合作。在不久的将来,这个数字很可能会更大。现在,如果预测用户不仅想要点预测,还想要 100 个有趣的分位数的预测(即整个边际分布),并且如果他希望您年复一年地将所有内容存储在数据库中,那么您就开始修补......好的,这会产生很多数据。我'

编辑(根据@whuber 的评论):要使其变得至关重要,在 5 秒的时间范围内可能会很困难。但无论如何,这不是问题,只是一个例子(人们可以提供其他例子)

我的问题是:是否存在时间序列分布的压缩理论/最佳实践(即时间函数与分布空间中的值)。我同意您可以按分位数工作并应用专用于信号的简单压缩算法(可能基于小波),但我正在寻找更专用的东西。例如,如果您知道一切都可以很好地用高斯近似,那么分位数的分位数方法将是愚蠢的!

编辑(根据@whuber 的评论):问题实际上是如何将时间维度整合到压缩方案中,因此我不想选择始终相同的分位数子集。带有 gaussian 的注释不是专门用于示例的,它是一个示例,用于说明需要非常好的压缩的情况。另一个琐碎的评论(从理论方面)是:假设您有一个非常复杂的分布,无法用很少的分位数来概括,并且您连续观察了 1000 次。每次都存储它会很遗憾。

2个回答

您可以将任何概率时间序列模型与算术编码结合使用。

不过,您必须量化数据。想法:“事件”发生的可能性越大,为该事件保留的位就越多。例如,如果其中是迄今为止看到的事件的历史,那么对该事件进行编码将花费您 1 位,而其他所有必须使用更多位。p(xt=1|x1:t1)=0.5x1:t1

您的分布是参数化的,如果您可以识别它们,您应该只存储足够统计的参数。这包括分销系列。对于时间序列,您可以利用自相关并根据其先前值存储预测分布的参数。

参数的先验(预测)分布的熵决定了压缩强度的上限,但您可能不需要进一步压缩它们。如果这样做,请使用算术压缩。减少熵,比如通过离散分位数,将产生更大的压缩。