在不考虑基础模型的准确性的情况下,预测概率的真正含义是什么?

数据挖掘 深度学习 喀拉斯 预言 可能性 准确性
2021-10-12 13:33:13

假设我在 Keras 中建立了一个(完全不切实际的)分类模型,它给了我 1.00 的准确度。

接下来,我想在一些新的、看不见的数据上使用我的模型,并使用它model.predict_proba来获得观察属于“A”类的概率。假设这返回给我一个 0.75。

我是否用英语正确解释了这一点:“100% 的时间,模型确信这个新的观察结果有 75% 的可能性是 A 类”?

如果这是正确的,那么让我们考虑一下我的模型是否不是完全完美的,就像在现实生活中一样,而是它给了我 0.40 的准确度。假设我predict_proba的仍然是 0.75。那么,这是否正确:

“在 40% 的情况下,模型确信这一新观察结果有 75% 的可能性是 A 类。” ?

如果是这样……这看起来好像predict_proba()不是一个完整的故事。

我可能会误导某人(比如记者……或法官,随便谁)说:“这种看不见的观察结果有 75% 的可能性属于 A 级”……如果我没有透露这一点,那听起来可能很棒声明基于一个准确度较低的模型,如 0.40。

我是否正确地说明了这一点,我的担忧是否有效?

1个回答

通过将预测标签与实际已知标签进行比较,在分类模型中测量准确性。
预测标签是每个类的预测概率和预定义阈值的函数(二元分类通常为 0.5)
因此如果样本 A 的 predict_proba 为 {0: 0.2, 1: 0.8},它将被标记为 1(因为 0.8 > 0.5)。
准确度是分类正确性的度量,predict_proba 是模型底层函数的直接结果。