由于病毒传播(如 2002 年美国的西尼罗河病毒)或人们抵抗力下降或食物或水污染或感染人数增加,在流行病期间病例和死亡人数增加(人数突然增加)蚊子。这些流行病将呈现为每 1 到 5 年发生一次的异常值。通过消除这些异常值,我们正在消除流行病的证据,这些流行病是预测和疾病理解的重要组成部分。
在处理流行病引起的异常值时是否需要进行数据清理?
它会改善统计分析的结果还是恶化统计分析的结果?
由于病毒传播(如 2002 年美国的西尼罗河病毒)或人们抵抗力下降或食物或水污染或感染人数增加,在流行病期间病例和死亡人数增加(人数突然增加)蚊子。这些流行病将呈现为每 1 到 5 年发生一次的异常值。通过消除这些异常值,我们正在消除流行病的证据,这些流行病是预测和疾病理解的重要组成部分。
在处理流行病引起的异常值时是否需要进行数据清理?
它会改善统计分析的结果还是恶化统计分析的结果?
我个人不会称其为“数据清理”。我认为数据清理更多是在数据编辑的意义上——清理数据集中的不一致性(例如,一条记录报告了 1000 岁,或者一个 4 岁的人是单亲等)。
数据中存在真实效应不会使其“混乱”(相反,真实效应的存在会使其变得丰富)——尽管它可以使您的数学任务更加复杂。如果这是获得预测的唯一可行方法,我建议以这种方式“清理”数据。如果有一种不会丢弃信息的可行方法,那么就使用它。
听起来您可能会从某种周期性分析中受益,因为您说这种影响会周期性地出现(有点像“商业周期”)。
从我的角度来看,如果您正在考虑预测某事,那么从该来源中删除真正的影响只会使您的预测变得更糟。这是因为您已经有效地“丢弃”了您希望预测的信息!
另一点是,可能很难确定一组死亡病例中有多少是由流行病引起的,有多少是由普通波动引起的。
用统计术语来说,流行病听起来像这样,从你的角度来看,它对你真正想要分析的东西是一种“滋扰”。所以你对它不是特别感兴趣,但你需要在分析中以某种方式考虑它。在回归设置中执行此操作的一种“快速而肮脏”的方法是将流行年份/时期的指标作为回归变量。这将为您提供流行病影响的平均估计值(并隐含地假设每种流行病的影响都是相同的)。但是,这种方法仅适用于描述效果,因为在预测中,您的回归变量是未知的(您不知道未来哪些时期将是流行时期)。
另一种解释流行病的方法是使用具有两个组件的混合模型:一个模型用于流行部分,一个模型用于“普通”部分。然后该模型分两步进行:1) 将某个时期分类为流行期或正常期,然后 2) 应用它所分类的模型。
这实际上取决于您的研究目的。在我看来,可能有几个:
所以如果你的主要目标是2,清除数据会导致对未来预测的错误结论,即不准确的预测性能。确实,第二种情况不一定能提供更好的预测,但您至少可以对流行期的概率及其长度做出结论。这对精算数学家来说非常重要,所以可能是你吗?
为了给你一个一般性的答案,让我解释一下我的一位老总经理:研究的机会是在你所拟合的模型的异常值中找到的。
这种情况类似于我的 Robert Millikan 在确定电子电荷时所做的实验。在他的实验获得诺贝尔奖几十年后,他的笔记被检查,发现他扔掉了大量的数据点,因为他们不同意他正在寻找的结果。那是坏科学吗?
如果您发现一些异常值,那么它们可能是由于“统计偏差”造成的。但是,如果您发现多个异常值,则需要更仔细地探索您的数据。如果您无法确定异常的原因,那么您不了解该过程,并且统计模型将无法解决您的问题。模型的目的是总结一个过程,模型不会神奇地总结一个实验者不理解的过程。
“数据清洗”的作用是识别“我们的法律(模型)何时不起作用”。调整异常值或异常数据点有助于我们获得当前模型中参数的“可靠估计”。如果未经处理,这些“异常值”允许模型参数出现不必要的失真,因为估计是“驱动解释这些数据点的”,这些数据点“不符合我们的假设模型”。换句话说,通过关注“坏人”来解释平方和有很多回报。应仔细检查经验确定的需要清理的点,以潜在地开发/建议当前模型中没有的原因因素。
做科学就是寻找重复的模式。
检测异常就是识别不遵循重复模式的值。你怎么知道某个点违反了该模型?事实上,增长、理解、发现和检查异常值的过程必须是迭代的。这不是一个新想法。
大约 400 年前,弗朗西斯·培根爵士在《新奥加努姆》上写道:“自然、运动和怪物的错误纠正了对普通事物的理解,并揭示了一般形式。因为谁知道自然之道,谁就会更容易注意到她的偏差;而另一方面,谁知道她的偏差,谁就会更准确地描述她的方式。”
我们通过观察当前规则何时失效来改变我们的规则。
如果确实识别出的异常值都是脉冲并且具有相似的效果(大小),那么我们建议以下(引自另一张海报)
“在回归设置中执行此操作的一种“快速而肮脏”的方法是将流行年份/时期的指标作为回归变量。这将为您提供流行病影响的平均估计(并隐含假设影响是每个流行病都一样)。但是,这种方法仅适用于描述效果,因为在预测中,您的回归变量是未知的(您不知道未来哪些时期将是流行病)。
这当然需要各个异常(脉冲年)具有类似的影响。如果它们不同,那么上面描述的 portmanteau 变量将是不正确的。