我正在为具有两个结果的事件建模,a 和 b。我创建了一个模型,它估计 a 或 b 发生的概率(即模型将计算 a 发生的概率为 40%,b 的发生概率为 60%)。
我有大量的试验结果记录以及模型的估计值。我想量化模型使用这些数据的准确度——这可能吗?如果可以,怎么做?
我正在为具有两个结果的事件建模,a 和 b。我创建了一个模型,它估计 a 或 b 发生的概率(即模型将计算 a 发生的概率为 40%,b 的发生概率为 60%)。
我有大量的试验结果记录以及模型的估计值。我想量化模型使用这些数据的准确度——这可能吗?如果可以,怎么做?
假设您的模型确实预测 A 有 40% 的机会,而 B 有 60% 的机会。在某些情况下,您可能希望将其转换为 B 会发生的分类(因为它比 A 更有可能)。一旦转换为分类,每个预测要么是对的,要么是错的,并且有许多有趣的方法来统计这些正确和错误的答案。一是直接准确性(正确答案的百分比)。其他包括精度和召回率或F-measure。正如其他人所提到的,您可能希望查看ROC 曲线。此外,您的上下文可能会提供一个特定的成本矩阵,该矩阵奖励真阳性与真阴性不同和/或惩罚假阳性与假阴性不同。
但是,我认为这不是您真正想要的。如果你说 B 有 60% 的发生机会,而我说它有 99% 的发生机会,我们会有非常不同的预测,即使它们都将在一个简单的分类系统中映射到 B。如果A发生了,你就有点错了,而我错了,所以我希望我会受到比你更严厉的惩罚。当您的模型实际产生概率时,评分规则是您的概率预测性能的衡量标准。具体来说,您可能需要一个适当的评分规则,这意味着分数针对经过良好校准的结果进行了优化。
评分规则的一个常见示例是Brier 评分:
当然,您选择的评分规则类型可能取决于您尝试预测的事件类型。但是,这应该会给您一些进一步研究的想法。
我要补充一点,无论您做什么,在以这种方式评估您的模型时,我建议您查看样本外数据(即未用于构建模型的数据)的指标。这可以通过交叉验证来完成。也许更简单地说,您可以在一个数据集上构建模型,然后在另一个数据集上对其进行评估(注意不要让来自样本外的推论溢出到样本内建模中)。