将某些时间序列值与特定时间点相关联的谬误:它有特定的名称还是有参考?

机器算法验证 时间序列 相关性 参考 术语 因果关系
2022-03-26 13:49:15

介绍/背景/示例

最近一篇将花粉与 covid-19 联系起来的文章本周在网上疯传。

较高的空气传播花粉浓度与增加的 SARS-CoV-2 感染率相关,全球 31 个国家的证据表明PNAS 2021 年 3 月 23 日 118 (12) e2019034118

那篇文章中的第三个图描绘了一个相关性,它以一种非凡的方式使用。

https://www.pnas.org/content/pnas/118/12/e2019034118/F3.large.jpg图 3 描述 SARS-CoV-2 指数感染阶段开始日期的袋状图。所有站点的指数感染阶段(x 轴)的开始日期与前 4 天(y 轴)的平均花粉浓度。

它显示了花粉和时间之间的(弱)相关性。我们看到,3 月下旬的花粉浓度高于 3 月上旬。

这种相关性的显着之处在于,已通过某种措施为各个地方的 covid-19 流行病的开始日期选择了时间点(该样本发生在 3 月 13 日左右)。

因此,作者认为 covid-19 流行病的开始日期与花粉浓度之间存在某种关系(这与时间和花粉浓度之间的关系略有不同)。

在研究的所有 80 个区域的横截面设计中,发现每个区域的指数期开始日期与前 4 天的花粉累积量呈正相关且显着相关(P < 0.001,r = 0.25)

然而,发病日期与发现的相关性无关。当我们完全绘制所有时间序列并将图 3 中的起始日的点重叠时,我们可以看到这一点。

图 3 与附加数据的叠加

开始日期与花粉浓度几乎没有关系,3 月 13 日左右时间点的任何其他随机选择/过滤可能会产生正相关,因为 3 月晚些时候的花粉峰值比 3 月初更多和更高。

问题

时间点(开始日期)和花粉浓度之间的这种联系是不合理的。

是否存在这种特殊的谬误,与时间点的相关性,一个特定的名称?或者是否有教科书参考证明了这种谬误?

例如,如果我想缩短上面的故事/解释,只说一个句子,例如“在图 3 中,他们犯了……的错误/谬误。​​”我们可以在这些点上放置什么名称或教科书参考?

4个回答

在同一时间段内观察时间序列的“虚假相关”是一个多世纪以来统计界公认的事情。 Yule (1926)观察到时间序列向量的比较违反了统计问题中通常的独立抽样假设,并且一些简单的确定性序列会导致相关值的幅度不为零——在某些情况下会给出完美的正相关或负相关. Wald 认为,当时间序列具有系统的序列相关性(即自相关)时,即使序列之间没有因果关系,它们在相同或相似的时间段内也将倾向于相互关联。

下面我举一些简单的例子来说明这里的兴趣现象。对于具有非零斜率的仿射时间序列,任何时间向量都与其对应的时间序列向量完全相关。对于异相正弦时间序列,时间序列向量强烈负相关,并且对于特定时间向量可以完全负相关。这里特别感兴趣的是第一种情况,它显示了时间向量与其对应的时间序列向量在简单趋势下的统计关系。您的问题中的情况是相似的,只要它着眼于时间值与​​当时花粉浓度之间的相关性。低正相关仅仅意味着花粉浓度(相对于其方差)在感兴趣的时间值出现的时期内有轻微的增加趋势。正如您正确指出的那样,这实际上并没有多大意义——只是花粉浓度在与 Covid 阶段开始同时发生的特定时间段内呈上升趋势(非常微弱)。

所有这些实际上只是反映了时间序列向量的同时趋势导致这些向量之间的相关性这一事实。如果两个时间序列在同一时间段内趋向同一方向,那么它们在该时间段内往往呈正相关。同样,如果两个时间序列在同一时间段内呈相反方向趋势,则它们在该期间内往往呈负相关。在Spurious Correlations一书中可以看到几个例子,其中同时期的时间趋势导致高度相关。

在这里概括您的关注的谬误是cum hoc ergo propter hoc(“因此,因此”)。仅仅从两件事具有同时趋势的事实来推断因果关系可能会导致错误,并且通常我们需要更多的东西来进行良好的因果推断。(当然我们至少想知道这里的作者是在测试一个预先注册的假设,还是只是在做一个事后的假设观察相关性。几乎可以肯定是后者。)这里的要点是,当您观察到两个时间序列是相关的(甚至是高度相关的)时,这并没有多大意义,尤其是作为潜在因果关系的证据。正如您在问题中所观察到的,论文中观察到的相关性之所以出现,是因为 3 月期间花粉数量增加,并且在时间上与 Covid“阶段”的更频繁发作相一致。这真的没什么,如果你只是直截了当地说,那将是一个不起眼的陈述,不会暗示两件事之间有任何因果关系。


完美的正相关:作为高正相关的简单说明,考虑如下形式的仿射时间序列:

Xt=α+βtβ0.

假设我们花费一些时间向量并形成相应的向量由当时的系列值组成点。由于对于所有很容易证明这些向量是完全相关的——即,它们的Pearson 相关性等于 1。t=(t1,...,tn)x=(x1,...,xn)xi=α+βtii=1,...,n


强/完美负相关:作为高负相关的一个简单例子,考虑以下形式的两个时间序列:

Xt=sin(2πβt)Yt=cos(2πβt)β0.

假设我们花费一些时间向量并形成相应的向量由这些时间点的系列值组成。通过使用离散傅里叶变换,很容易证明这些向量会倾向于具有高度的负相关,并且在某些情况下它们可以具有完美的负相关。t=(t1,...,tn)x=(x1,...,xn)y=(y1,...,yn)


除了我在学术研究中的不同谬误的文章资源: http ://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.579.5429&rep=rep1&type=pdf

我筛选了一篇/两篇文章和一篇博客以及其他一些内容,这是主要总结:正如我在评论中提到的,我发现的大多数研究总是使用虚假或无意义的术语。

我发现的第一个资源在时间序列方面准确地处理了这些背后的危险:对危险的结论是,研究人员似乎“没有预先白化”,或者换句话说,在时间序列中压平噪音,以确保剩下的零件可以提供真实关系的一小部分:

关于预美白:

http://hosting.astro.cornell.edu/~cordes/A6523/Prewhitening.pdf

处理危险的文章:

https://link.springer.com/content/pdf/10.3758/s13428-015-0611-2.pdf

摘录:

我们已经清楚地表明,时间序列对之间的互相关,甚至是作为序列集合的平均值得出的序列对,可能会产生误导。避免这种虚假互相关的关键方法是对互相关的序列进行预白化。但即便如此,一些虚假的相关性可能仍然存在,需要谨慎对待结果。不仅有必要进行批判性解释,而且还需要意识到某些类型的时间序列可能不适合预白化方法——例如,当数据是二项式或序列仅显示稀疏变化时

这篇文章还介绍了不同的方法来处理危险,也许这对你有用。

此外,我还研究了因果关系的术语,因为您提到的研究人员清楚地从他们的观察中得出了一些因果目标。

我发现这个博客是我们所强调的,我不知道超过 100 个!?关于因果关系和时间序列格兰杰因果关系等的论文和资料来源: https ://towardsdatascience.com/inferring-causality-in-time-series-data-b8b75fe52c46#4da2 。尽管我没有完全阅读所有内容,但您可以想象。如果我之前的研究还不够,也许你发现了一些启发性的东西,所以你至少得到了另一个提示。

总结一下我的发现,只要你有一个强调不检查虚假相关性的危险的来源,就像他们制造了不检查虚假相关性的错误/谬误,或者不预白化或类似的错误一样,这句话可能是可行的两个时间序列背后的深度数据。因为它不重要,因为它在某个区域。我们必须从整体上看这个系列。我不相信如果它与一个或两个时间点相关,您可以进行归纳检查整个系列是否如此或存在因果关系。这也应该归结为虚假。

然而,我的见解并没有完全解决这样一个事实,即研究人员在三月底从一开始就遗漏了一些信息(花粉密度),我相信这纯粹是欺诈或不知道的错误。但如果你认为研究人员犯了错误。我倾向于研究我提供的材料。希望它在某种程度上有所帮助。

https://en.wikipedia.org/wiki/Oil_drop_experiment#Fraud_allegations

有不同的概念,其中一些重叠。另外我认为主要的一次已经被提及:)。我认为这些在时间序列和分析方面也很有趣。

  1. '虚假回归' 高 R2 值和高 t 比产生没有经济意义的结果。这可能通常发生在 a)只是愚蠢的相关性,如https://www.tylervigen.com/spurious-correlations,或参见https://en.wikipedia.org/wiki/Spurious_relationship,或 b)在时间序列中非常常见不是静止的,请参阅此处的单位根https ://en.wikipedia.org/wiki/Unit_root
  2. 相关并不意味着因果关系——驳斥逻辑谬误。请参阅https://en.wikipedia.org/wiki/Correlation_does_not_imply_causation在许多情况下,我们为了更好地了解情况,一些有用的工具可能是Grander Causality(请参阅https://en.wikipedia.org/wiki/Granger_causality)或创建实验设置https://en.wikipedia.org /wiki/Design_of_experiments
  3. Cum hoc ergo propter hoc(“因此,因此”)。请参阅https://en.wikipedia.org/wiki/Post_hoc_ergo_propter_hoc
  4. Lucas Critique : https://en.wikipedia.org/wiki/Lucas_critique 试图完全根据历史数据,尤其是高度汇总的历史数据中观察到的关系来预测经济政策变化的影响是幼稚的。有点说不可能预测人类系统的未来,例如在包含政策时。
  5. 自我实现的预言某人“预测”或期待某事的社会心理现象,而这种“预测”或期望之所以会成真,仅仅是因为该人相信它会实现,并且该人的行为结果符合该信念。参见https://en.wikipedia.org/wiki/Self-fulfilling_prophecy我认为这对 Covid 19 初期的卫生纸很奇怪。在经济危机泡沫期间的股市中也可以观察到类似的模式

这不是提供规范示例的答案。然而,这个答案在稍微不同的上下文中提供了另一种相同类型的谬误错误。

  • 这使得作为答案被放置很有趣。(我不想将它添加到会使其过于混乱的问题中)
  • 它还表明,这种类型的谬误比文章中关于 PNAS 中花粉和 covid 之间相关性的单次出现更为普遍。对于这种特定的谬误,可能需要一个特定的术语。

以下论点发生在

Walrand, S. 欧洲的秋季 COVID-19 激增日期与纬度相关,与温度-湿度无关,指出维生素 D 是促成因素。科学代表 11, 1981 (2021)。https://doi.org/10.1038/s41598-021-81419-w

COVID-19 激增日期是前两周国家平均温度 (A) 和湿度 (B) 的函数,也是国家 PWC 纬度 (C) 的函数,表明维生素 D 是主要因素之一(标志链接图之间的国家)。

论点是温度和湿度与日期无关,因此被排除在 COVID-19 病例激增的原因之外。排除温度和湿度后,这指向维生素 D(阳光)作为剩余因素。

然而,当我们从表 2 中获取数据并绘制阳光图时,我们也会发现缺乏相关性。如下图所示。在第一行中,我们看到了文章中的三个图表。在第二行中,我们看到了第四张图,该图可能已经绘制(并且会显示 UV 类似于温度和湿度),但尚未在文章中添加。

第 4 个图在哪里

谬误在于,如果这些因素起作用,他们错误地认为温度、湿度和/或紫外线与激增的开始日期之间应该存在相关性。然而,事实恰恰相反。如果温度、湿度和/或紫外线起作用,那么您会认为这些因素在不同国家/地区发病当天/之前或多或少相似。


通过说这个论点是一个谬误,我不想说所有的结论都是错误的。可能仍然与维生素 D 有关系。但是,我们可以说,这些数据对维生素 D 没有结论性。此外,这些数据不支持温度和湿度不起作用的论点。