聚合时间序列以使其看起来更有意义是否有效?

机器算法验证 时间序列 预测
2022-03-08 07:40:49

我的另一个关于时间序列的问题。

我有一个数据集,它提供了三年来精神病院暴力事件的每日记录。在我之前的问题的帮助下,我一直在摆弄它,现在对此有点高兴。

我现在拥有的是日常系列非常嘈杂。它上下波动很大,有时从 0 到 20。使用黄土图和预测包(我强烈推荐给像我这样的新手)我只是得到一条完全平坦的线,预测的置信区间很大。

但是,每周或每月汇总数据更有意义。他们从系列开始向下扫荡,然后在中间再次增加。黄土绘图和预测包都产生了看起来更有意义的东西。

虽然感觉有点像作弊。我只是更喜欢聚合版本,因为它们看起来不错,但没有真正的有效性吗?

还是计算移动平均线并将其用作基础会更好?恐怕我对这一切背后的理论了解得不够透彻,无法对可接受的东西充满信心

3个回答

在预测中聚合数据以提高信噪比是很常见的。例如,有几篇关于时间聚合对经济学预测准确性影响的论文。您可能在每日数据中看到的是被噪音淹没的微弱信号,而每周和每月数据显示出更明显的更强信号。

是否要使用时间聚合完全取决于您的目的。如果您需要对日常事件进行预测,那么聚合就没有多大用处。如果您有兴趣探索几个协变量对发病频率的影响,并且您的所有数据每天都可用,那么我可能会使用每日数据,因为它会提供更大的样本量并且可能使您能够检测到效果更容易。

由于您使用的是预测包,因此您可能对时间序列预测感兴趣。那么您需要每日预测、每周预测还是每月预测?答案将决定聚合是否适合您。

这完全取决于您的时间序列以及您想要发现/证明的效果等。

这里重要的是,您的数据中有哪些时期。对您的数据进行频谱分析,并查看您的数据中常见的频率。

无论如何,当您决定显示聚合值时,您并没有撒谎。当您正在寻找持续数周发生的影响时(例如,夏季天气炎热时会发生更多暴力事件),这是正确的做法。

也许你也可以看看希尔伯特黄变换。这将为您提供对可视化分析非常方便的内在模式函数。

您面临的问题(困境)似乎是选择最佳(或其他良好)采样间隔来修改您的预测。首先,请参阅布朗名著的链接文本,这也可以作为很好的参考。这一切都归结为“平衡没有快速注意到变化的风险与数据的固有可变性和频繁修改计划的成本”。如果您不准备每天修改您的预测(以及促成预测的决定),那么您实际上不需要使用(最嘈杂的)每日数据。当代预测文献中经常忽略的一个重要观点是,预测只需要帮助做出决定(除非人们也知道如何从中获得乐趣)。