机器算法验证 - 压缩理论，实践，用于具有分布空间中的值的时间序列（例如真正的随机变量） - 吾爱随笔录

问题示例：我们研究团队的一部分正在致力于提供可运行的风电预测。通常，由于预测用户的兴趣不同，因此每 15 分钟发布一次预测（甚至需要 5 秒），每 15 分钟发布一次预测，直到几天。显然，当您与风电场所有者签订合同时，他拥有许多风电场，可能是 10 甚至 1000 个风电场，具体取决于您与谁合作。在不久的将来，这个数字很可能会更大。现在，如果预测用户不仅想要点预测，还想要 100 个有趣的分位数的预测（即整个边际分布），并且如果他希望您年复一年地将所有内容存储在数据库中，那么您就开始修补......好的，这会产生很多数据。我'

编辑（根据@whuber 的评论）：要使其变得至关重要，在 5 秒的时间范围内可能会很困难。但无论如何，这不是问题，只是一个例子（人们可以提供其他例子）

我的问题是：是否存在时间序列分布的压缩理论/最佳实践（即时间函数与分布空间中的值）。我同意您可以按分位数工作并应用专用于信号的简单压缩算法（可能基于小波），但我正在寻找更专用的东西。例如，如果您知道一切都可以很好地用高斯近似，那么分位数的分位数方法将是愚蠢的！

编辑（根据@whuber 的评论）：问题实际上是如何将时间维度整合到压缩方案中，因此我不想选择始终相同的分位数子集。带有 gaussian 的注释不是专门用于示例的，它是一个示例，用于说明需要非常好的压缩的情况。另一个琐碎的评论（从理论方面）是：假设您有一个非常复杂的分布，无法用很少的分位数来概括，并且您连续观察了 1000 次。每次都存储它会很遗憾。