您如何在模型中考虑 COVID-19?

机器算法验证 机器学习 预测模型 模型 监督学习 新冠肺炎
2022-02-08 00:29:38

您如何处理机器学习模型中的冠状病毒“事件” ?

假设您曾经预测每个月的销售数量。该病毒去年影响了您的结果,并且至少会影响几个月。所以你的模型,我猜,丢失了很多。我们可以使用哪些方法来修复我们的模型?

4个回答

我们对零售进行预测:超市、药店等。我们添加预测变量来解释我们的销售时间序列,特别是针对不同阶段的封锁的不同预测变量。

一方面,这将清理时间序列,因此我们不会将猫砂盒的更高销量误解为明年会再次出现的季节性效应。另一方面,这使我们能够预测新一轮封锁的可能影响。此外,我们删除了由于缺货而导致的零销售审查期,例如我当地超市的空厕纸架:

卫生纸架

当然,这有一点艺术,或者更确切地说是主观维度。COVID-19 影响销售的哪一部分是一次性事件,哪一部分反映了“新常态”?取决于此,您将希望让您的预测器用完,或者在可预见的未来保留它们,本质上是一种“结构性中断”类型的事情。

无耻的自我推销:实际上,我在上周五举办的网络研讨会上简要提到了这一点。这是录音。我对 COVID 的简短评论从地震发生后的15:45开始。是的,我确实进入猫砂盒。

这是一个有趣的问题,我敢肯定有几十种不同的方法。这是一个“没有错误答案”类型的问题。

从我的角度来看,当我考虑收入时,我一直在与 Covid-19 打交道,这几乎与看到销售额一样(如 Stephan 所示),但并非完全如此,因为涉及到价格等问题。这些是我正在研究的策略,如果有人发现其中任何一个问题,请告诉我:

  • 使用假人来解释这种流行病。因此,这对于了解事件的影响很有用,一旦问题解决,我们就可以将其设置为零。虚拟变量可能对应于您认为可以公平使用的锁定或其他变量。你只需要小心,这样你的预测“跳跃”就不会太高;
  • 使用社交网络预测一些市场行为并将其整合到您的模型中;
  • 我不建议使用死亡,因为这与害怕离开家做某事并不对应。不幸的是,我相信这些事件之间没有很好的相关性。我想你可以检查你的城市/国家;

您还可以尝试找出您所在国家/地区的封锁有什么影响,如果每个社区或城市的策略不同,则可以进行差异化。然后,您将应用此更改来修复您的模型所做的预测。

老实说,我还在想办法。这是我现在可以贡献的,希望我能很快带来新的见解。

我在收入和定价领域为一家大型航空公司工作,我们预测收入和预订以及其他事情。我们尝试了 2 种方法。一个是有效地从新冠病毒前的数据中扩展。我们尝试预测较低的分位数而不是平均值,并从 2019 年开始使用动态比例因子。这没问题。对我来说最有效的方法就是从 5 月左右开始删除所有疫情前的数据。我们添加了“自大规模 covid 下降以来的天数”的功能,这非常有效。

由于在某些情况下,当新冠疫情开始时,航空公司的收入下降了 90% 以上,我们基本上没有能力调整,因为一切都被消灭了。此外,还有很多最后一分钟的日程变更和政策,我们很难足够快地整合这些内容。对于许多模型,我们当前的准确性接近于它之前的水平,但它会因方法和问题类型而异。

在 covid 刚开始时,我们没有数据或不知道发生了什么,实际上我只是建立了一个马尔可夫链模型,显示当我们的主管要求预测时,预订和取消是多么不稳定。它让他们看到了新冠病毒前后环境中存在的不确定性和差异。

我希望我能像其他人一样在这里讲一些有趣的故事:

我为一家制药公司开展了一个项目,该公司希望对他们的痴呆症和感冒咳嗽产品进行建模,尤其是在冠状病毒/COVID-19 感染期间。对于痴呆症产品,我们已经看到了在危机前就已经很活跃的下降趋势。最终,我们的销售预测比最初的销售结果高出 10%,但 COVID-19 并未真正影响痴呆症的使用。尽管这些痴呆症产品通常也会在突发性耳聋(由压力引起)的情况下服用,但我们没有看到 COVID-19 的明显迹象,或者换句话说,由于 COVID-19 期间的压力时间可能导致更高消费的不寻常产品细节和在家上学。

因此,前一年的负面趋势强于预期,但仅此而已。我们决定不包含任何 COVID-19 效果,这似乎是正确的。由于产品细节,我们认为它与 COVID-19 锁定的相关性不高。

对于感冒/咳嗽产品,您可以想象两种情况:

  • 由于封锁,人们生病的次数减少了,因此即使在流感的主要季节,销售也会下降
  • 人们在囤积

我们用假人测量了冠状病毒的影响,我们已经在一月份看到了不寻常的活动,我没有足够的数据来继续做更多的事情。假人的总销售额为 3.000.000 欧元。没有人能预料到发生了什么:

见鬼,在建模之后,客户端的目标不匹配大约 50%,但没有下降;它在 2020 年初上升。你可以看到,在 2020 年 1 月到 2020 年 3 月之间,人们疯狂囤积。伙计,他们每个月都有 2/3 以上,总计近 12,000,000 !

对于所有三个月的平均值,如果我们计算正常的季节性销售,我们的销售目标预测范围不到 10%,但是对于冠状病毒,唷......如果你还记得冠状病毒 COVID-19 什么时候爆发,人们囤积像斯蒂芬这样的卫生纸已经指出,但是他们储存了所有可以帮助对抗症状的东西。

之后,我计算了几种情况,在德国,我们会说:rumdümpeln von Infektionszahlen,我的意思是感染病例略有上升,然后下降,同样的情况又小幅波动,上下波动。

另一种情况是在圣诞节前夕解除封锁,以便零售商可以从圣诞节后期的业务中获利。将销售额与感染病例的数量联系起来我相对 天真地根据销售和感染病例的高斯分布预测 感染病例,每周,高斯分布的顶部已经对销售产生负面影响,并且显示出大约几千的高感染率,作为我们的最高在德国,感染病例最多只有 6,000 例。这导致了 10 月下旬至 12 月期间非常高的负销售额。

好吧,这个模型似乎在锁定预测方面是正确的,但是当我现在离开公司时,我永远不会知道 2020 年末的销售额到底有多“低”。也许有一天有人会告诉我,如果我的负数销售和我的大锁定方案指出了正确的方向。

我希望这很有趣。