前言:我不关心是否使用截止点的优点,或者应该如何选择截止点。我的问题纯粹是数学问题,出于好奇。
逻辑回归对 A 类与 B 类的后验条件概率进行建模,并拟合后验条件概率相等的超平面。所以理论上,我知道无论设置平衡如何,0.5 分类点都会最小化总错误,因为它对后验概率进行建模(假设您始终遇到相同的类别比率)。
在我的现实生活示例中,我使用 P > 0.5 作为我的分类截止值(大约 51% 的准确度)获得了非常差的准确度。但是,当我查看 AUC 时,它高于 0.99。因此,我查看了一些不同的截止值,发现 P > 0.6 给了我 98% 的准确率(小类为 90%,大类为 99%)——只有 2% 的案例被错误分类。
这些类严重不平衡(1:9),这是一个高维问题。但是,我将类平均分配给每个交叉验证集,以便模型拟合和预测之间的类平衡之间不应该存在差异。我还尝试使用来自模型拟合和预测的相同数据,并且发生了同样的问题。
我对 0.5 不会最小化错误的原因很感兴趣,我认为如果模型通过最小化交叉熵损失来拟合,这将是设计使然。
有人对为什么会发生这种情况有任何反馈吗?是否由于增加了惩罚,如果是这样,有人可以解释发生了什么吗?