数据挖掘 - 允许接近 0 的预测的好的目标函数是什么？ - 吾爱随笔录

假设我们要预测下雨的概率。所以只是二元情况：下雨或不下雨。

在许多情况下，将其置于 [5%, 95%] 区间内是有意义的。对于许多应用程序来说，这已经足够了。并且实际上希望使分类器不太自信。因此选择交叉熵（CE）：

H_{{是的}^{'}} (是的) := - \sum_{一世} {是的}_{一世}^{'} 日志 ({是的}_{一世})

$H_{y'} (y) := - \sum_{i} y_{i}' \log (y_i)$

但是交叉熵实际上使分类器很难学会预测 0。是否还有另一个目标函数在 0 附近表现得不那么极端？

为什么重要

在某些情况下，可以将预测值设为 0%（或者至少更接近于 0，例如 $10^{-6}$ ）。就像在沙漠中一样。并且可能存在需要这种（接近）零预测的应用程序。例如，当您想预测某事至少发生一次的概率时。如果分类器总是预测至少有 1% 的机会，那么在 15 天内至少下雨一次是

1 - (1 - 0.05)^{15} \approx 54 %

$1 - (1-0.05)^{15} \approx 54\%$

但是如果分类器实际上也可以输出 0.1%，那么这只是

1 - (1 - 0.001)^{15} \approx 1.5 %

$1 - (1-0.001)^{15} \approx 1.5\%$

我也可以想象这对于医学测试或视频很重要。