如果预测的质量破坏了数据的质量,我们该如何处理?

数据挖掘 分类 预测建模
2022-02-15 05:02:16

考虑以下示例:

您患有一种罕见疾病,其发生似乎取决于一定数量的变量。您建立了一个模型,该模型试图预测最有可能受到部分成功疾病影响的患者,也就是说,它以一定的准确性预测疾病的可能发作,但低于预期。理想情况下,随着有关该疾病患者的更多历史数据的出现,您会更新模型,并且准确性开始提高。

最终,您开始通知高危患者并为他们提供应对这种疾病的步骤。正因为如此,越来越多被归类为高风险的患者实际上并未感染该疾病,从而降低了模型的准确性。从某种意义上说,该模型是其自身成功的“受害者”。

是否有任何策略来处理此类预测场景:旨在预测不良结果的模型由于成功避免了现实世界案例中的结果而失去准确性?

2个回答

正因为如此,越来越多被归类为高风险的患者实际上并未感染该疾病,从而降低了模型的准确性。

我宁愿挑战这个假设,并说算法在这种情况下没有遗漏:它正确识别了一个高风险案例,这是它的最初目的。你不是在建立一个模型来识别会感染疾病的人,而是为了预防疾病的实际发生。

始终认真思考哪些指标有意义以及它们代表什么。如果你建立一个混淆矩阵:

Predicted \ Actual | Caught the disease | Did not catch the disease
High risk          | A                  | B
Low risk           | C                  | D

现在,当您使用准确性时,您会说 A 和 D 好,B 和 C 不好,都具有相同的权重。但是B真的很糟糕吗?C不是比其他任何东西都差吗?或者根据预防疾病的成本,也许B更糟?我不知道,这需要领域知识。但重点是,盲目地使用准确性并不是处理这种情况的好方法:根据问题调整指标

我想您可以在收集新的观察结果后继续训练您的模型。

最简单的策略是对最近的观察(受模型结果影响)给予更多的重视。