我有 100,000 个观察值(9 个虚拟指标变量),其中 1000 个阳性。在这种情况下,逻辑回归应该可以正常工作,但截止概率让我感到困惑。
在普通文献中,我们选择 50% 的截止值来预测 1 和 0。我不能这样做,因为我的模型给出的最大值约为 1%。所以阈值可以在 0.007 或附近的某个位置。
我确实了解ROC
曲线以及曲线下的面积如何帮助我在同一数据集的两个 LR 模型之间进行选择。但是,ROC 并不能帮助我选择可用于在样本外数据上测试模型的最佳截止概率。
我应该简单地使用一个最小化的截止值misclassification rate
吗?(http://www2.sas.com/proceedings/sugi31/210-31.pdf)
补充 --> 对于如此低的事件率,我的误分类率受到大量误报的影响。虽然总体上的比率看起来不错,因为总宇宙大小也很大,但我的模型不应该有这么多误报(因为它是一个投资回报模型)。5/10 系数很重要。