二元分类概率的置信区间

数据挖掘 机器学习 分类 可能性
2021-09-25 14:42:08

在评估经过训练的二元分类模型时,我们经常评估错误分类率、精确召回率和 AUC。

然而,分类算法的一个有用特征是它们给出的概率估计,它支持模型做出的标签预测。

根据用例,这些概率出于各种原因可能很有用。当使用这些概率时,有一个置信区间而不是单点估计会很有用。

那么,考虑到错误分类误差可能并不总是代表估计概率和实际概率(通常是未知的)之间的误差,我们如何估计概率置信区间?

我考虑过使用brier score,但我相信有更好的方法。谁能指出我正确的方向或提供您自己的见解?

例如,如果我有[C0, C1]给定实例的类和概率(x(i),y(i)){C0: 80, C1:20}那么我会将这个实例归类C0. 让我们假设这C0是正确的类标签,此时模型已经完成了它的工作并做出了正确的分类。

我想更进一步,使用由于{C0:80, C1:20}各种原因可能有用的概率。

假设C0C1分别代表客户在银行保留和关闭他们的帐户。

如果我们想创造一个期望值 EV 我们可以计算出有可能离开银行的美元 EV 作为 P(C1)account balance. 这将给我们一个点估计EV,这很好,但考虑到我们在模型中的不确定性,这可能无法说明全部情况。

C1那么,我们如何才能提供该实例属于95% 置信度的概率的下限和上限呢?

2个回答

我不认为对所有模型都有一个很好的方法来做到这一点,但是对于很多模型来说,在你的预测中可能会产生一种不确定感(这是你正在寻找的关键字)。我列举几个:

贝叶斯逻辑回归给出概率上的概率分布。MCMC 可以从您的逻辑回归(或更复杂的)模型中采样权重,从而预测不同的概率。如果这些概率的方差很大,您对预测不太确定,您可以凭经验取 5% 分位数之类的。

使用神经网络,您可以使用 dropout 训练它们(一般来说这不是一个坏主意),然后不是在没有 dropout 的情况下进行测试,而是在每次预测时进行多次前向传递,这样您就可以从不同的模型中进行采样。如果方差很大,那么您再次不确定。变分推理是另一种对网络进行采样并从这些不同网络中采样以获得不确定性度量的方法。

我不知道从我的头顶上,但我相信你可以用随机森林做一些事情,假设它们不深,你的特征最终出现的不同端节点之间的差异,但这只是我想的的。

我认为分类器不存在置信区间的概念。

但是,您可以通过查看模型返回的概率来衡量模型的不确定性。请注意,概率不是不确定性,但如果您校准概率,您可以从频率论者的角度了解事件实现的信念。

您可以预期预测的误差与预测的概率相同。实际上,如果属于某个类别的概率为 0.8,则使用经过校准的分类器,您的样本实际上属于该类别的概率为 80%。