如何选择罕见事件 Logistic 回归的截止概率

机器算法验证 回归 物流 分类 广义线性模型
2022-03-06 09:14:03

我有 100,000 个观察值(9 个虚拟指标变量),其中 1000 个阳性。在这种情况下,逻辑回归应该可以正常工作,但截止概率让我感到困惑。

在普通文献中,我们选择 50% 的截止值来预测 1 和 0。我不能这样做,因为我的模型给出的最大值约为 1%。所以阈值可以在 0.007 或附近的某个位置。

我确实了解ROC曲线以及曲线下的面积如何帮助我在同一数据集的两个 LR 模型之间进行选择。但是,ROC 并不能帮助我选择可用于在样本外数据上测试模型的最佳截止概率。

我应该简单地使用一个最小化的截止值misclassification rate吗?http://www2.sas.com/proceedings/sugi31/210-31.pdf

补充 --> 对于如此低的事件率,我的误分类率受到大量误报的影响。虽然总体上的比率看起来不错,因为总宇宙大小也很大,但我的模型不应该有这么多误报(因为它是一个投资回报模型)。5/10 系数很重要。

1个回答

我不同意 50% 的临界值本身就是有效的或得到文献的支持。唯一可能证明这种截断是合理的情况是在病例对照设计中,结果的发生率正好是 50%,但即便如此,选择也将受到一些条件的限制。我认为选择截止值的主要理由是诊断测试所需的操作特性。

可以选择截止值以实现所需的灵敏度或特异性。有关这方面的示例,请查阅医疗设备文献。灵敏度通常设置为固定值:示例包括 80%、90%、95%、99%、99.9% 或 99.99%。敏感性/特异性权衡应与 I 型和 II 型错误的危害进行比较。通常,与统计测试一样,I 类错误的危害更大,因此我们控制了这种风险。尽管如此,这些危害很少可以量化。正因为如此,我强烈反对依赖于单一预测准确性度量的截止选择方法:它们错误地传达了危害可以并且已经被量化。

你的误报太多的问题就是一个相反的例子:II 型错误可能更有害。然后,您可以设置阈值以实现所需的特异性,并报告在该阈值处实现的灵敏度。

如果您发现两者都太低而无法接受,则您的风险模型不起作用,应该被拒绝。

灵敏度和特异性很容易计算或从表格中查找整个可能的截止值范围。ROC 的问题在于它从图形中省略了特定的截止信息。因此,ROC 与选择截止值无关。