是否有绘制二进制时间序列的参考资料?

机器算法验证 时间序列 数据可视化 参考
2022-03-29 23:41:01

有谁知道绘制二进制时间序列数据的建议/参考?还是分类时间序列数据?我正在查看赢/输记录,似乎应该有利用二进制性质的图,而不仅仅是简单的线图。

后期编辑:我熟悉 Tufte 的建议,尤其是在Beautiful Evidence的迷你图章节中给出的建议(见下面 whuber 的回答)。我对其他参考资料感兴趣,尤其是那些为他们的建议提供理由的参考资料。

第二次编辑:澄清评论中的一些问题......对我来说关键问题是该系列的二元性质。我有兴趣参考任何讨论在绘制二进制(或一般的分类或有序变量)时间序列而不是间隔/定量变量时出现的特殊问题。高度技术性的论文很好,针对大众读者的非技术性书籍也很好。这确实是我感兴趣的二进制与一般区别,除了下面的答案中列出的参考之外,我不知道任何参考。

3个回答

与往常一样,这取决于情节的目的:它打算与谁交流?无论如何,累积图往往是有趣和信息丰富的。纽约时报最近制作了许多很好的例子。类似情节的一些例子出现在“ Edward Tufte 论坛”上这种“迷你图”(没有标记轴的累积图)、表格数据和原始时间序列的组合在一个地方提供了大量信息:

迷你图

注意设计的微妙之处,例如将表格行和右侧图(只是二进制时间序列图)定位在与最终排名相对应的高度;并在迷你图、表格和时间序列图中使用一致的颜色。

在查看这些内容时,我很想稍微重新设计它们:要么按时间缩放一个或两个情节,而不是游戏索引,以引入时间顺序信息;或者——也许更好——在各个系列游戏之间设置差距。(棒球通常在两队之间进行三到四场比赛。这种结构对于理解数据很重要。)更好的是:在右边,根据对方球队(或者可能只是对方球队的实力),而不是使用单色系列。

这些建议遵循 Tufte 在他关于该主题的第一本书《定量信息的可视化显示》中阐述的原则,其中他主张通过擦除(在这里,在数据中放置空白以显示系列)和修改表示的图形模式(在这里,用颜色的变化代替无信息的单一颜色)。

Kedem 和 Fokianos 在他们的“时间序列分析的回归模型”一书中有一整章(第 2 章)介绍了二元时间序列模型,其中包含许多绘制序列和周期图的示例。

应 whuber 的要求,我在本章中添加了一些情节描述。第 63 页 图 2.3 该图位于逻辑自回归部分。具有正弦分量的逻辑自回归模型由公式 Logit(πt(β))= β1 + β2 cos(2πt/12) + β3 Yt-1 给出

他们绘制 Yt 并在其下方绘制时间序列,其中特定函数是

Logit(πt(β))= 0.3 + 0.75 cos(2πt/12) + Yt-1

图 2.4 第 62 页类似,但适用于不同系列

图 2.5 显示了 4 个带有正弦分量的逻辑自回归的样本自相关。

图 2.9 第 70 页绘制了新罕布什尔州华盛顿山在 107 天内的降水水平,采用二进制时间序列 Yt(下雨是或否)。

图 2.14(查看睡眠数据 Yt 清醒与睡眠的逻辑模型)该图提供了来自模型的原始残差和来自模型的 Pearson 残差的累积周期图。

图 2.15 显示了睡眠数据逻辑模型的观察序列,以及其下方序列的模型预测。

只是为了跟进这个问题,我没有找到任何其他关于绘制二进制系列的资源,并最终选择了我最初忽略的原始线图。(M. Chernick 一书中观察到的系列的图指的是也将原始数据绘制为线条,这是我在做出选择后发现的)。Tufte 的刻度图需要更多空间才能清晰易读,并且能够连续计算输赢的好处似乎很小。准确计数是困难的,如果最大连胜或连败的长度很重要,它可以自己呈现,就像他在更传统的迷你图中对最小值/最大值所做的那样)。

到目前为止的结果如下:

MLB赛季总结通过全明星赛

最后一列给出了所玩游戏的输赢,以及对剩余游戏的固定效应模型的预测。其他列有点离题,但这里有一个描述可供感兴趣的人使用。

我很高兴听到其他建议,但任何广泛的内容都可能需要提出另一个问题。如果添加此后续答案不合适,请告诉我。