时间序列集的比较

机器算法验证 时间序列 多重比较 趋势
2022-03-26 19:05:32

我要比较三组时间序列数据。它们已在大约 12 天的 3 个不同时期进行。它们是在期末考试周期间在大学图书馆采取的平均、最大和最小人数。我不得不做平均,最大和最小,因为每小时的人数不是连续的(请参阅时间序列中的常规数据间隙)。

现在数据集看起来像这样。每晚有一个数据点(平均值、最大值或最小值),持续 12 个晚上。数据被采集了 3 个学期,仅在 12 天的关注期内。例如,2010 年春季、2010 年秋季和 2011 年 5 月各有一组 12 个点。这是一个示例图表:

在此处输入图像描述

我已经覆盖了学期,因为我想看看模式如何随着学期的变化而变化。但是,正如我在链接线程中被告知的那样,将学期尾对头拍打并不是一个好主意,因为两者之间没有数据。

那么问题是:我可以使用什么数学技术来比较每个学期的出勤模式? 我必须做的时间序列有什么特别的吗,或者我可以简单地获取百分比差异吗?我的目标是说这些天图书馆的使用量是上升还是下降。我只是不确定我应该使用什么技术来展示它。

2个回答

固定效应方差分析(或其等效线性回归)提供了一系列强大的方法来分析这些数据。为了说明,这是一个与每晚平均 HC 图一致的数据集(每种颜色一个图):

       |              Color
   Day |         B          G          R |     Total
-------+---------------------------------+----------
     1 |       117        176         91 |       384 
     2 |       208        193        156 |       557 
     3 |       287        218        257 |       762 
     4 |       256        267        271 |       794 
     5 |       169        143        163 |       475 
     6 |       166        163        163 |       492 
     7 |       237        214        279 |       730 
     8 |       588        455        457 |     1,500 
     9 |       443        428        397 |     1,268 
    10 |       464        408        441 |     1,313 
    11 |       470        473        464 |     1,407 
    12 |       171        185        196 |       552 
-------+---------------------------------+----------
 Total |     3,576      3,323      3,335 |    10,234 

ANOVA 的count反对daycolor产生此表:

                       Number of obs =      36     R-squared     =  0.9656
                       Root MSE      =  31.301     Adj R-squared =  0.9454

              Source |  Partial SS    df       MS           F     Prob > F
          -----------+----------------------------------------------------
               Model |  605936.611    13  46610.5085      47.57     0.0000
                     |
                 day |  602541.222    11  54776.4747      55.91     0.0000
           colorcode |  3395.38889     2  1697.69444       1.73     0.2001
                     |
            Residual |  21554.6111    22  979.755051   
          -----------+----------------------------------------------------
               Total |  627491.222    35  17928.3206   

p 值 0.0000表明model拟合非常显着。p 值 0.0000 也非常显着day:您可以检测到日常变化。但是,color(学期)p 值 0.2001 不应被视为显着:即使在控制了日常变化之后,您也无法检测到三个学期之间的系统差异。

Tukey 的 HSD(“诚实显着差异”)测试在 0.05 水平上确定了日常平均值(不考虑学期)的以下显着变化(除其他外):

1 increases to 2, 3
3 and 4 decrease to 5
5, 6, and 7 increase to 8,9,10,11
8, 9, 10, and 11 decrease to 12.

这证实了眼睛可以在图表中看到的内容。

由于图表跳动很多,因此无法检测日常相关性(序列相关性),这是时间序列分析的全部内容。换句话说,不要打扰时间序列技术:这里没有足够的数据让他们提供任何更深入的见解。

人们应该总是想知道有多少可以相信任何统计分析的结果。异方差性的各种诊断(例如Breusch-Pagan 检验)并没有显示出任何不妥之处。残差看起来不太正常——它们聚集成一些组——所以所有的 p 值都必须用一粒盐来计算。尽管如此,它们似乎提供了合理的指导,并有助于量化我们从图表中获得的数据意义。

您可以对每日最小值或每日最大值进行平行分析。确保从一个类似的图作为指导开始,并检查统计输出。

莎拉,取你的 36 个数字(每个周期 12 个值;3 个周期)并构建一个包含 11 个指标的回归模型,以反映可能的学期周效应,然后确定任何必要的干预系列(脉冲、电平转换)以呈现残差的平均值在任何地方都为 0.0,或者至少在统计上与 0.0 没有显着差异。例如,如果您在第 13 期发现水平偏移,这可能表明第一个学期的平均值(即前 12 个值)与最后两个学期的平均值(最后 24 个值)之间存在统计学显着差异。您也许能够得出推论或检验学期没有一周效应的假设。在这方面,一个好的时间序列包可能对您有用。如果你不知道,你可能需要找人在这个分析领域提供帮助。