冠状病毒的增长率及其与蒸气压模型的可能虚假相似性

机器算法验证 模型 曲线拟合 流行病学
2022-04-13 19:02:06

如图所示,我从约翰霍普金斯大学收集了有关冠状病毒的最新数据,并对这些数据拟合了不同的曲线,以模拟被感染/被感染之间的关系,以 20-Jan-20 为一天1.PT

在此处输入图像描述

在此处输入图像描述

与应用标准 SIR 和 SEIR 不同我尝试了简单的曲线拟合来查看总体趋势。我使用的曲线拟合软件具有来自不同科学分支的众所周知的模型,我们可以构建自己的自定义模型,如下图所示。针对模型名称的分数给出了模型与该数据的拟合程度。分数越高,拟合越好,最高可能分数为 1000。虽然我们只有 18 天的数据(截至格林威治标准时间 2 月 7 日凌晨 2 点),但一个模型始终作为最佳拟合出现在顶部,这是蒸气压模型。在检查了各种边界条件后,我拒绝了许多模型,但我找不到任何立即拒绝蒸汽压力模型的理由。同样,当我对报告的死亡人数与时间进行建模时,

在此处输入图像描述

所以我对蒸气压模型做了一些研究。

蒸气压的基本概念由于液体的分子不断运动并具有动能,因此在任何时候它们中的一部分都有足够的能量从液体表面逸出进入气相。这个过程称为蒸发,在液体上方产生蒸气压气相中的分子可以与液体表面碰撞并通过冷凝重新进入液体。最终达到稳态,单位时间内蒸发和冷凝的分子数相同,系统处于动态平衡状态。在这些条件下,液体表现出仅取决于温度LPLTL. 挥发性液体是具有高蒸气压的液体,易于从敞开的容器中蒸发;非挥发性液体的蒸气压低。当蒸汽压力等于外部压力时,液体内形成蒸汽气泡,并沸腾。我们可以使用Antoine 方程将蒸​​汽压和温度之间的非线性关系表示为几乎线性的关系

PL=exp(a+bTL+clogTL)

接下来,我做了一些关于冠状病毒如何传播以及它是否与液体有关的研究。这是我发现的。

冠状病毒如何传播:当感染者咳嗽或打喷嚏时,他们会散发出唾液、粘液或其他体液飞沫。如果这些飞沫中的任何一个落在你身上——或者如果你触摸它们然后,比如说,触摸你的脸——你也可能被感染。传染病医院将接触定义为距离感染者 6 英尺以内 10 分钟或更长时间。时间和距离很重要。

当冠状病毒通过空气中携带病毒的微小液滴从感染者身上逃脱时,它就会传播。我想知道这与为什么蒸汽压模型一直处于最佳拟合状态有关,即使蒸汽压方程中没有明显的压力或温度,我看不出它们是如何兴高采烈的。可能这一切只是巧合

作为一个糟糕的科学家但一个关心的人,我想我必须报告这个观察,以防它有任何价值。

问题:鉴于这些有限的数据,我们可以推断出冠状病毒的生长速度,以及我们如何拒绝将蒸汽压模型视为纯粹的虚假相关性。

注1:我很清楚虚假相关性。但是只有 3 周的数据,我们很多人无法这么早发现不同的趋势。因此,无论如何我都会报告最合适的。

2个回答

“如果你只有一把锤子,那么一切看起来都像钉子。” 您拥有的数据集很小,可能代表性不足且质量未知,因为有人认为许多病例可能没有被诊断出来。您观察到指数增长,这是许多自然和人工过程中的常见现象。曲线拟合得很好,但我敢打赌其他类似的曲线也会拟合得很好。

请注意,您提到的 Antoine 方程是一个非常灵活的方程,因为它可以解释常数 ( )、指数 ( ) 和线性 ( ) 增长曲线。这使得它很容易适应许多数据集。αb/TLclogTL

此外,使用这种数据,在早期阶段可能更难对其进行建模。请注意,您可以将线性增长模型拟合到最早的时期。稍后,二次可能会很好。后来,指数会更适合,其中可能很难捕捉到确切的速率,因为根据定义“它增长得越多,那么它增长得越多”,并且它可能很容易加速相当快。将某些曲线拟合到此类数据可能很容易,但对它的最佳测试将是时间测试,即根据未来数据验证它。

感染病例的增长或多或少呈指数增长,但增长率不是恒定的。yc

ytcy

例如,请注意图表中每天的病例变化如何取决于特定日期的病例数,并且当当前病例很大时,病例的增加幅度更大。变大而斜率减小的曲线(或者当时间更远时等效,原因在这里不清楚)。y

作为微分方程的增长

有许多类型的方程可以模拟指数增长,其中增长率不是恒定的。当您仅在短时间内观察增长时,其中许多模型看起来非常相似。因为那时增长的变化不大,很容易用一个或另一个来近似。在我们的例子中,一个简单的多项式拟合实际上做得最好(就较少的平方残差之和而言)。c

对数刻度

但这种拟合应被视为一种经验关系。没有强烈的潜在含义,如果有任何含义*,那么它就不会通过这种拟合进行测试,并且完全是假设的。

有了这 18 个数据点,我们只知道相对增长已经达到每天 100% 以上的峰值,然后下降。

相对增长

是因为疾病传播的某种机制,还是因为病例的报告方式(数据是否干净)?当同一条曲线可能有多种解释时(残差的微小变化在决定哪个解释比另一个解释更好时没有太大差异),那么我们需要更多(和不同的)测量来测试不同的解释。

问题:鉴于这些有限的数据,我们可以推断出冠状病毒的生长速度,以及我们如何拒绝将蒸汽压模型视为纯粹的虚假相关性。

确实有有限的数据可以说明哪种模型是正确的。但是,对于 VPM 模型的情况,我们可以说它是虚假的和不正确的(我们不需要更多数据)。我们可以这样说:机制的逻辑(没有意义)、专业知识、以前的经验、曲线在小范围内看起来非常相似的事实(增加曲线看起来相同的巧合)。


*你可以说像这样的关系在某种程度上是有道理的,因为某种基于幂的增长(玩具模型将是一个圆的增长其中圆面积的增加与圆的周长有关)。ytcyny

与更大数据范围的比较

当我们使用更大范围的数据时(例如,来自 wikipedia 的数据,在撰写本文时有 27 天和第 5-23 天的点对应于您的数据),那么我们可以看到您的 VPM 曲线似乎恰好适合( /解释)数据。

VPM 模型在小范围内(从 5 到 23 天)大致类似于线性/多项式模型:

相比:

[log(y)]=yya+bt

[log(y)]=yya/t2+b/t

后者可以在一个小范围内近似线性(请注意,对于 18 个数据点的小值,VPM 实际上已经失败,您可以在对数尺度上很好地看到,但这些小值在总和中的重要性较低平方残差;VPM 似乎做得很好的是与 100% 增加的小跳跃相匹配;事后看来,我们可以说这应该被认为只是拟合噪声)

与更大的数据范围比较

预测/外推

注 1:我很清楚虚假相关性。但是只有 3 周的数据,我们很多人无法这么早发现不同的趋势。因此,无论如何我都会报告最合适的。

以这种方式拟合曲线不是很有用。当没有良好的基础理论时,它不会提供太多信息。

在下图中,推算出两个模型,它们给出的最终数量为 45.3k 或 47.8k 案例,此时(仅 2 或 3 天后)增长率为零(根据这些模型)。

这种推断不是很有用。我们不知道该模型是否真的像一条恰好适合的曲线(我们可以设计许多其他同样适合的曲线)。

可能有更多我们没有考虑到的参数。与这些多项式的拟合并没有表达超出范围的情况。不难想象,增长将在很长一段时间内保持非零,这种情况不是通过“随机”拟合多项式或其他一些方法(如仅检查有限集的曲线拟合工具)来建模的( 67)各种型号(可能与情况无关)。

外推

当我们查看案例的绝对增长时,这种使用多项式模型的乐观推断看起来更加引人注目。目前,这是每天一万。最近几天的趋势并没有表明这种情况会如此迅速地减少,而且看起来我们将达到 50 000 例以上。

外推