数据清洗会恶化统计分析的结果吗?

机器算法验证 时间序列 预测 流行病学 异常值
2022-01-20 08:50:57

由于病毒传播(如 2002 年美国的西尼罗河病毒)或人们抵抗力下降或食物或水污染或感染人数增加,在流行病期间病例和死亡人数增加(人数突然增加)蚊子。这些流行病将呈现为每 1 到 5 年发生一次的异常值。通过消除这些异常值,我们正在消除流行病的证据,这些流行病是预测和疾病理解的重要组成部分。

在处理流行病引起的异常值时是否需要进行数据清理?

它会改善统计分析的结果还是恶化统计分析的结果?

4个回答

我个人不会称其为“数据清理”。我认为数据清理更多是在数据编辑的意义上——清理数据集中的不一致性(例如,一条记录报告了 1000 岁,或者一个 4 岁的人是单亲等)。

数据中存在真实效应不会使其“混乱”(相反,真实效应的存在会使其变得丰富)——尽管它可以使您的数学任务更加复杂。如果这是获得预测的唯一可行方法,我建议以这种方式“清理”数据。如果有一种不会丢弃信息的可行方法,那么就使用它。

听起来您可能会从某种周期性分析中受益,因为您说这种影响会周期性地出现(有点像“商业周期”)。

从我的角度来看,如果您正在考虑预测某事,那么从该来源中删除真正的影响只会使您的预测变得更糟。这是因为您已经有效地“丢弃”了您希望预测的信息!

另一点是,可能很难确定一组死亡病例中有多少是由流行病引起的,有多少是由普通波动引起的。

用统计术语来说,流行病听起来像这样,从你的角度来看,它对你真正想要分析的东西是一种“滋扰”。所以你对它不是特别感兴趣,但你需要在分析中以某种方式考虑它。在回归设置中执行此操作的一种“快速而肮脏”的方法是将流行年份/时期的指标作为回归变量。这将为您提供流行病影响的平均估计值(并隐含地假设每种流行病的影响都是相同的)。但是,这种方法仅适用于描述效果,因为在预测中,您的回归变量是未知的(您不知道未来哪些时期将是流行时期)。

另一种解释流行病的方法是使用具有两个组件的混合模型:一个模型用于流行部分,一个模型用于“普通”部分。然后该模型分两步进行:1) 将某个时期分类为流行期或正常期,然后 2) 应用它所分类的模型。

这实际上取决于您的研究目的。在我看来,可能有几个:

  1. 你想了解什么是典型的导致病例和死亡的因素,不受流行期和流行病的影响(所以你对典型的不强制大概率感兴趣)——在这种情况下,你显然需要去除流行病数据中的周期,因为它们的目的是研究异常值到您想要得出的结论
  2. 你可能想在你的模型中包含流行病的变化(例如,切换模式的模型,欢迎社区提供任何好的链接和模型建议),因为你想知道流行期发生的概率(以及多长时间)它会持续),以测试稳定性和预测- 在这种情况下,您不排除流行期,而是搜索更复杂的模型,而不是使用hammer-econometric-tool或类似的东西OLS
  3. 您的主要目标是检测流行病期并实时监控它们 - 这是我在维尔纽斯大学的许多同事正在研究的计量经济学的一个特殊领域(当然,您希望有很多流行病观察结果来处理)

所以如果你的主要目标是2,清除数据会导致对未来预测的错误结论,即不准确的预测性能。确实,第二种情况不一定能提供更好的预测,但您至少可以对流行期的概率及其长度做出结论。这对精算数学家来说非常重要,所以可能是你吗?

为了给你一个一般性的答案,让我解释一下我的一位老总经理:研究的机会是在你所拟合的模型的异常值中找到的。

这种情况类似于我的 Robert Millikan 在确定电子电荷时所做的实验。在他的实验获得诺贝尔奖几十年后,他的笔记被检查,发现他扔掉了大量的数据点,因为他们不同意他正在寻找的结果。那是坏科学吗?

如果您发现一些异常值,那么它们可能是由于“统计偏差”造成的。但是,如果您发现多个异常值,则需要更仔细地探索您的数据。如果您无法确定异常的原因,那么您不了解该过程,并且统计模型将无法解决您的问题。模型的目的是总结一个过程,模型不会神奇地总结一个实验者不理解的过程。

“数据清洗”的作用是识别“我们的法律(模型)何时不起作用”。调整异常值或异常数据点有助于我们获得当前模型中参数的“可靠估计”。如果未经处理,这些“异常值”允许模型参数出现不必要的失真,因为估计是“驱动解释这些数据点的”,这些数据点“不符合我们的假设模型”。换句话说,通过关注“坏人”来解释平方和有很多回报。应仔细检查经验确定的需要清理的点,以潜在地开发/建议当前模型中没有的原因因素。

如何使用年病死率评估一个州与另一个州的干预效果?

做科学就是寻找重复的模式。

检测异常就是识别不遵循重复模式的值。你怎么知道某个点违反了该模型?事实上,增长、理解、发现和检查异常值的过程必须是迭代的。这不是一个新想法。

大约 400 年前,弗朗西斯·培根爵士在《新奥加努姆》上写道:“自然、运动和怪物的错误纠正了对普通事物的理解,并揭示了一般形式。因为谁知道自然之道,谁就会更容易注意到她的偏差;而另一方面,谁知道她的偏差,谁就会更准确地描述她的方式。”

我们通过观察当前规则何时失效来改变我们的规则。

如果确实识别出的异常值都是脉冲并且具有相似的效果(大小),那么我们建议以下(引自另一张海报)

“在回归设置中执行此操作的一种“快速而肮脏”的方法是将流行年份/时期的指标作为回归变量。这将为您提供流行病影响的平均估计(并隐含假设影响是每个流行病都一样)。但是,这种方法仅适用于描述效果,因为在预测中,您的回归变量是未知的(您不知道未来哪些时期将是流行病)。

这当然需要各个异常(脉冲年)具有类似的影响。如果它们不同,那么上面描述的 portmanteau 变量将是不正确的。