处理罕见事件逻辑回归的策略

机器算法验证 物流 罕见事件
2022-02-04 23:34:48

我想研究有限人群中的罕见事件。由于我不确定哪种策略最适合,我会很感激与此问题相关的提示和参考,尽管我很清楚它已被广泛覆盖。我真的不知道从哪里开始。

我的问题是政治科学问题,我的人口有限,包括 515,843 条记录。它们与具有 513,334 个“0”和 2,509 个“1”的二元因变量相关联。我可以将我的“1”作为罕见事件,因为它们仅占人口的 0.49%。

我有一组大约 10 个自变量,我想建立一个模型来解释“1”的存在。像我们许多人一样,我阅读了King & Zeng 2001 年关于罕见事件校正的文章。他们的方法是使用案例控制设计来减少“0”的数量,然后对截距进行校正。

但是,这篇文章说,如果我已经收集了整个人口的数据,那么 King & Zeng 的论点就没有必要了,这就是我的情况。因此,我必须使用经典的 logit 模型。对我来说不幸的是,虽然我获得了很好的显着系数,但我的模型在预测方面完全没有用(无法预测 99.48% 的“1”)。

读完 King & Zeng 的文章后,我想尝试一个案例控制设计,只选择了 10% 的“0”和所有的“1”。使用几乎相同的系数,该模型在应用于全部人群时能够预测几乎三分之一的“1”。当然,也有很多假阳性。

因此,我想问你三个问题:

1)如果King & Zeng的方法在你对人口有充分了解的情况下是有偏见的,为什么他们在文章中用他们知道人口的情况来证明他们的观点?

2)如果我在 logit 回归中有良好且显着的系数,但预测能力很差,这是否意味着这些变量解释的变化毫无意义?

3)处理罕见事件的最佳方法是什么?我读到了 King 的 relogit 模型、Firth 的方法、确切的 logit 等等。我必须承认我在所有这些解决方案中迷失了方向。

4个回答

(1) 如果您“完全了解人口”,为什么需要模型来进行预测?我怀疑您隐含地将它们视为来自假设的超级人口的样本-请参见此处此处那么你应该从你的样本中丢弃观察结果吗?不,King & Zeng 不提倡:

[...] 在国际关系等领域,可观察到的 1(例如战争)的数量受到严格限制,因此在大多数应用程序中,最好收集所有可用的 1 或其中的大量样本。那么唯一真正的决定就是收集多少个 0。如果收集 0 没有成本,我们应该收集尽可能多的数据,因为更多的数据总是更好。

我认为您正在谈论的情况是示例“在军事化的州际争议数据中K.&Z. 用它来证明他们的观点:在这个例子中,如果研究人员试图通过收集所有 1 和一部分 0 来节省开支,他们的估计将类似于对所有可用 1 和 0 进行抽样的人。你还会如何说明这一点?Y

(2) 这里的主要问题是使用不正确的评分规则来评估模型的预测性能。假设你的模型是真的,那么对于任何人来说,你都知道发生罕见事件的概率——比如在下个月被蛇咬伤。通过规定一个任意的概率截止值并预测它上面的人会被咬,下面的人不会被咬,你还能学到什么?如果您达到 50% 的临界值,您可能会预测没有人会被咬。如果你把它做得足够低,你可以预测每个人都会被咬。所以呢?模型的合理应用需要区分——谁应该得到唯一的抗毒药瓶?——或校准——考虑到与蛇咬伤相比的成本,为谁买靴子是值得的?

在一个层面上,我想知道你的模型有多少不准确只是因为你的过程很难预测,而你的变量不足以做到这一点。还有其他变量可以解释更多吗?

另一方面,如果您可以将因变量转换为计数/顺序问题(例如冲突造成的伤亡人数或冲突持续时间),您可以尝试零膨胀计数回归或障碍模型。这些可能具有相同的问题,即 0 和 1 之间的定义不佳,但与变量相关的一些冲突可能会远离零。

除了对多数群体进行下采样之外,您还可以对稀有事件进行过采样,但请注意,对少数类的过采样可能会导致过拟合,因此请仔细检查。

本文可以提供有关它的更多信息:Yap、Bee Wah 等。“过采样、欠采样、装袋和提升在处理不平衡数据集中的应用。” pdf

另外,我想链接这个问题,因为它也讨论了同样的问题

您的问题归结为如何哄骗 logit 回归以找到更好的解决方案。但是您确定存在更好的解决方案吗?只有十个参数,你能找到更好的解决方案吗?

我会尝试一个更复杂的模型,例如在输入处添加乘积项,或者在目标端添加一个最大输出层(这样你就可以为各种自适应地发现的目标 1 子集提供多个逻辑回归量)。