在评估经过训练的二元分类模型时,我们经常评估错误分类率、精确召回率和 AUC。
然而,分类算法的一个有用特征是它们给出的概率估计,它支持模型做出的标签预测。
根据用例,这些概率出于各种原因可能很有用。当使用这些概率时,有一个置信区间而不是单点估计会很有用。
那么,考虑到错误分类误差可能并不总是代表估计概率和实际概率(通常是未知的)之间的误差,我们如何估计概率置信区间?
我考虑过使用brier score,但我相信有更好的方法。谁能指出我正确的方向或提供您自己的见解?
例如,如果我有[C0, C1]
给定实例的类和概率{C0: 80, C1:20}
那么我会将这个实例归类
为C0
. 让我们假设这C0
是正确的类标签,此时模型已经完成了它的工作并做出了正确的分类。
我想更进一步,使用由于{C0:80, C1:20}
各种原因可能有用的概率。
假设C0
并C1
分别代表客户在银行保留和关闭他们的帐户。
如果我们想创造一个期望值 我们可以计算出有可能离开银行的美元 作为 . 这将给我们一个点估计,这很好,但考虑到我们在模型中的不确定性,这可能无法说明全部情况。
C1
那么,我们如何才能提供该实例属于95% 置信度的概率的下限和上限呢?