假设我们要预测下雨的概率。所以只是二元情况:下雨或不下雨。
在许多情况下,将其置于 [5%, 95%] 区间内是有意义的。对于许多应用程序来说,这已经足够了。并且实际上希望使分类器不太自信。因此选择交叉熵(CE):
但是交叉熵实际上使分类器很难学会预测 0。是否还有另一个目标函数在 0 附近表现得不那么极端?
为什么重要
在某些情况下,可以将预测值设为 0%(或者至少更接近于 0,例如 )。就像在沙漠中一样。并且可能存在需要这种(接近)零预测的应用程序。例如,当您想预测某事至少发生一次的概率时。如果分类器总是预测至少有 1% 的机会,那么在 15 天内至少下雨一次是
但是如果分类器实际上也可以输出 0.1%,那么这只是
我也可以想象这对于医学测试或视频很重要。