Frank Harrell 博士在他的书和BIOS 330 课程中提到,
用于驱动模型构建的准确度得分应该是利用数据中所有信息的连续得分(例如 Brier 得分、对数似然度、偏差、均方误差)
我想知道:
- 这些分数在什么意义上是“连续的”?当我们将其视为从拓扑空间(输入数据集)到? 那么事件空间的拓扑/度量是什么?
- Brier 得分如何优于“正确分类的比例”作为准确度得分,因为 Brier 得分对结果变量的相对频率也很敏感?考虑一个始终以概率 1 预测 1 的非信息模型,如果真实流行率为 0.30 或 0.005,则 Brier 得分将非常不同。或者我可能没有正确理解这里的敏感性。
- 我们如何在连续分数中进行选择?我们有二元预测案例的 Brier 分数、对数似然度、偏差。我们如何决定哪一个会给我们“最好的”模型?