处理对同一时间戳有多个观测值的时间序列数据

数据挖掘 Python 时间序列
2022-02-25 01:21:10

我在 Python 3 中有一个时间序列数据,如下所示:

Date                `Weekly_Sales`
2010-05-02              3400
2010-05-02              5600
2010-05-02`             4590
2010-05-02              5800
2010-05-12              2380
2010-05-12              6700
2010-05-12              3700

时间序列不连续,因为同一日期有多个观察值。我正在尝试使用 ARIMA 预测 python 中的销售,但我的 ACF 和 PACF 图显示滞后之间没有相关性。另外,如果我运行 dickly fuller测试以测试平稳性,我的系统冻结。

我怎样才能解决这个问题?

2个回答

看起来您在该数据集中丢失了一些信息。对于一个变量,您不应该在一个时间步长内进行 4 次测量 - 您如何知道前四行中的哪一行用于2010-05-02

我建议检查您的数据源,或者想办法解释这四个值的含义……它们是否有所不同(使用其他信息)?

您甚至如何在该日期索引上创建滞后?每天取平均值?根据您用于 Dikey-Fuller 测试的程序包(和其他方法),它们可能无法处理与输入相同的时间步长……因此可以解释会话崩溃的原因。

一种选择是采用贝叶斯方法并将数据建模为随时间变化的可能值的分布。每周都是状态空间模型的一部分。最常见的名称/框架是贝叶斯结构时间序列 (BSTS)