允许接近 0 的预测的好的目标函数是什么?

数据挖掘 xgboost 优化 目标函数
2021-09-24 22:04:06

假设我们要预测下雨的概率。所以只是二元情况:下雨或不下雨。

在许多情况下,将其置于 [5%, 95%] 区间内是有意义的。对于许多应用程序来说,这已经足够了。并且实际上希望使分类器不太自信。因此选择交叉熵(CE):

H是的'(是的):=-一世是的一世'日志(是的一世)

但是交叉熵实际上使分类器很难学会预测 0。是否还有另一个目标函数在 0 附近表现得不那么极端?

为什么重要

在某些情况下,可以将预测值设为 0%(或者至少更接近于 0,例如 10-6)。就像在沙漠中一样。并且可能存在需要这种(接近)零预测的应用程序。例如,当您想预测某事至少发生一次的概率时。如果分类器总是预测至少有 1% 的机会,那么在 15 天内至少下雨一次是

1-(1-0.05)1554%

但是如果分类器实际上也可以输出 0.1%,那么这只是

1-(1-0.001)151.5%

我也可以想象这对于医学测试或视频很重要。

1个回答

请注意,神经网络通常校准不佳。从本质上讲,这意味着对于二元分类,神经网络擅长将样本的预测分数保持在正确的区域(高于 50% 或低于 50%,具体取决于类别),但实际值不必代表合理现实世界的概率。

有很多关于如何校准神经网络的研究,例如这种方法