我是一名业余数据分析师/建模师,试图自学一些新技术。我有一个系统,在一个事件发生时,可能会出现两种结果(0 或 1),以及许多预测模型,旨在根据先前的事件给出结果 1 的概率。其中一些模型显然比其他模型更好,但我正在寻找一种方法来定量评估那些不太明显的模型的性能。例如,给定两个模型(p1 和 p2)和两个事件(out1,out2):
p1 = 0.70
p2 = 0.60
out1 = 1
p1 = 0.65
p2 = 0.55
out2 = 0
在第一个事件中,我希望大多数人认为 p1 更好,因为它预测结果为 1 的概率更高。在第二个事件中,我希望大多数人认为 p2 更好,即使两个模型预测了错误的方向,p2 预测结果错误的概率较小。
这向我表明,简单地根据类似的东西对每个模型进行评分
if (p > 0.5 && out = 1) score++;
if (p <= 0.5 && out = 0) score++;
不足以准确评估这些模型。我的问题是:
- 可以使用哪些方法来评估这些模型?
- 这些方法在告诉我们关于模型的内容方面有何不同?例如,有些方法偏向于通常正确但概率很少超出 0.45 < p 0.55 范围的模型,或者偏向于不太经常正确但概率通常在 0 <= p < 0.2 和 0.8 < p 范围内的模型<= 1?
- (相关性稍差但有趣)这些方法如何转化为具有两个以上结果的系统?