时间序列分析中的“相关性”术语

机器算法验证 时间序列 相关性
2022-04-06 06:57:29

从基本统计数据和一直听到“相关性不是因果关系”来看,我倾向于认为即使 X 和 Y 不是因果关系,也可以说“X 和 Y 是相关的”。例如,我通常认为冰淇淋销量和泳装销量相关是完全可以的,因为泳装销量高可能意味着冰淇淋销量高(即使泳装销量的增加不会导致冰淇淋销量的增加) )。

但是,在学习时间分析时,我对这个术语有些困惑。似乎时间序列分析师不会说冰淇淋销售与泳装销售相关,而是说冰淇淋销售与泳装销售虚假相关。未经修改的“X 与 Y 相关”似乎是为 X 实际上导致Y的情况保留的,因此可以说温度(但不是冰淇淋)与泳装销售相关。

这个对吗?我的问题是虚假相关似乎有两种含义:

  1. 将两个独立的随机游走相互回归,普通的统计测试会说它们是相关的,即使这两个随机游走显然在任何方面都不相关。(我对虚假相关的含义很满意,因为确实没有关系。)
  2. 将冰淇淋销售与泳装销售进行回归。让我感到困惑的是,这种相关性被称为虚假,因为冰淇淋销售和泳装销售之间确实存在关系,即使这种关系不是因果关系

所以我想我的问题是:时间序列分析师是否为因果关系保留术语“(非虚假)相关性” - 所以对于时间序列分析师来说,相关性意味着暗示因果关系!- 虽然统计学家一般都可以使用“相关性”来表示任何类型的(可能是非因果关系)关系?

3个回答

为了避免虚假相关问题,您应该将两个固定时间序列相互回归。这可以(可能)提供一个因果故事。导致虚假相关的是非平稳序列。请参阅我对这个问题的回答给出的推理(作为脚注,如果它们是集成序列,您可能不需要固定序列,但我会向您指出任何应用时间序列的书籍以了解更多信息。)

维基百科中对虚假关系有一个很好的定义虚假意味着存在导致这两个变量的一些隐藏变量或特征。在时间序列和通常的回归中,术语的含义相同,当其他因素导致两个变量时,两个变量之间的关系是虚假的。在时间序列上下文中,这是随机游走的固有属性,在通常的回归分析中是一些其他变量。

至于您的主要问题,我的回答是否定的。如果您已经看到这些术语在时间序列上下文和横截面上下文中的使用方式之间存在这种区别,那一定是由于您拥有的一两个特殊作者读。严谨的作者永远不会正确地使用“相关性”来表示“因果关系”。你在那里得到了一个虚假的术语区别。不过,有趣的问题。