我想研究有限人群中的罕见事件。由于我不确定哪种策略最适合,我会很感激与此问题相关的提示和参考,尽管我很清楚它已被广泛覆盖。我真的不知道从哪里开始。
我的问题是政治科学问题,我的人口有限,包括 515,843 条记录。它们与具有 513,334 个“0”和 2,509 个“1”的二元因变量相关联。我可以将我的“1”作为罕见事件,因为它们仅占人口的 0.49%。
我有一组大约 10 个自变量,我想建立一个模型来解释“1”的存在。像我们许多人一样,我阅读了King & Zeng 2001 年关于罕见事件校正的文章。他们的方法是使用案例控制设计来减少“0”的数量,然后对截距进行校正。
但是,这篇文章说,如果我已经收集了整个人口的数据,那么 King & Zeng 的论点就没有必要了,这就是我的情况。因此,我必须使用经典的 logit 模型。对我来说不幸的是,虽然我获得了很好的显着系数,但我的模型在预测方面完全没有用(无法预测 99.48% 的“1”)。
读完 King & Zeng 的文章后,我想尝试一个案例控制设计,只选择了 10% 的“0”和所有的“1”。使用几乎相同的系数,该模型在应用于全部人群时能够预测几乎三分之一的“1”。当然,也有很多假阳性。
因此,我想问你三个问题:
1)如果King & Zeng的方法在你对人口有充分了解的情况下是有偏见的,为什么他们在文章中用他们知道人口的情况来证明他们的观点?
2)如果我在 logit 回归中有良好且显着的系数,但预测能力很差,这是否意味着这些变量解释的变化毫无意义?
3)处理罕见事件的最佳方法是什么?我读到了 King 的 relogit 模型、Firth 的方法、确切的 logit 等等。我必须承认我在所有这些解决方案中迷失了方向。