时间序列分析中的陷阱

机器算法验证 时间序列 自习
2022-01-27 10:34:36

我刚刚开始自学时间序列分析。我注意到有许多潜在的陷阱不适用于一般统计数据。那么,建立在什么是常见的统计罪?, 我想问一下:

时间序列分析中的常见陷阱或统计错误是什么?

这是一个社区维基,每个答案一个概念,请不要重复(或应该)列出的更一般的统计陷阱在什么是常见的统计罪?

4个回答

在时间序列上外推线性回归,其中时间是回归中的自变量之一。线性回归可能会在短时间内逼近时间序列,并且可能在分析中很有用,但外推直线是愚蠢的。(时间是无限的,而且还在不断增加。)

编辑:针对 naught101 关于“愚蠢”的问题,我的回答可能是错误的,但在我看来,大多数现实世界的现象不会永远持续增加或减少。大多数过程都有限制因素:随着年龄的增长,人们的身高会停止增长,股票并不总是上涨,人口不会变成负数,你不能用十亿只小狗填满你的房子等等。时间,不像大多数自变量记住,有无限的支持,所以你真的可以想象你的线性模型预测 10 年后苹果的股价,因为 10 年后肯定会存在。(而你不会推断身高体重回归来预测 20 米高的成年男性的体重:他们不存在,也不会存在。)

此外,时间序列通常具有循环或伪循环分量,或随机游走分量。正如 IrishStat 在他的回答中提到的那样,您需要考虑季节性(有时是多个时间尺度的季节性)、水平变化(这会对不考虑它们的线性回归做奇怪的事情)等。忽略周期的线性回归将适合短期,但如果你推断它会高度误导。

当然,无论何时推断,无论是否是时间序列,您都可能遇到麻烦。但在我看来,我们经常看到有人将时间序列(犯罪、股票价格等)放入 Excel,在其上放置 FORECAST 或 LINEST,然后通过基本上直线来预测未来,就好像股票价格会持续上涨一样(或持续下降,包括转负)。

注意两个非平稳时间序列之间的相关性。(不出所料,它们会有很高的相关系数:搜索“无意义相关”和“协整”。)

例如,在 google correlate 上,狗和耳洞的相关系数为 0.84。

有关较早的分析,请参阅Yule 1926 年对问题的探索

在顶层,Kolmogorov 将独立性确定为统计学中的一个关键假设——如果没有独立同分布假设,统计学中的许多重要结果都是不真实的,无论是应用于时间序列还是更一般的分析任务。

大多数现实世界离散时间信号中的连续或邻近样本不是独立的,因此必须注意将过程分解为确定性模型和随机噪声分量。即便如此,经典随机微积分中的独立增量假设是有问题的:回想一下 1997 年诺贝尔经济学奖和 1998 年 LTCM 的内爆,后者将获奖者列为其负责人(但公平地说,该基金的经理梅里韦瑟可能更应该受到指责而不是量化方法)。

将趋势定义为随时间的线性增长。

尽管某些趋势在某种程度上是线性的(请参阅 Apple 股票价格),并且虽然时间序列图看起来像可以找到线性回归的折线图,但大多数趋势都不是线性的。

当某个特定时间点发生的事情改变了测量行为时,就会出现阶跃变化( “桥梁倒塌,此后没有汽车越过它”)。

另一个流行趋势是“嗡嗡声” ——指数增长和类似的急剧下降之后(“我们的营销活动取得了巨大的成功,但效果在几周后就消失了”)。

了解时间序列中趋势的正确模型(逻辑回归等)对于在时间序列数据中检测它的能力至关重要。