数据挖掘 - 深度神经网络二元分类器的非对称成本函数 - 吾爱随笔录

我正在构建一个基于深度神经网络的二进制分类器，具有单一输出。我实际上想要最小化的损失函数是

L (\hat{y}, y) = {\begin{cases} 0, & if \hat{y} = 0 \\ 1, & if \hat{y} = 1 & y = 0 \\ γ \approx - 0.7, & if \hat{y} = 1 & y = 1 \end{cases}

$\mathcal L(\hat y,y) = \begin{cases} 0, & \text{if $\hat y$ = 0} \\ 1, & \text{if $\hat y$ = 1 & $y$ = 0} \\ \gamma \approx -0.7 , & \text{if $\hat y$ = 1 & $y$ = 1} \end{cases}$ 在哪里

y \in {0; 1}

$y \in \{0;1\}$ 是样品的标签，

\hat{y} \in {0; 1}

$\hat y \in \{0;1\}$ - 分类器的输出和

γ

$\gamma$ - 超参数。我认为这是一个不对称损失的案例。（可以看成是下注：不下注无奖励，下注1美元，下注1.7美元）

据我目前所知，这个损失函数可能不太适合反向传播和梯度下降。问：有没有更合适的配方？

经常使用的交叉熵损失不允许在精度和召回之间进行权衡调整。LINEX 和 LINLIN 在设计上是不对称的，但我找不到用它们训练的深度神经网络的例子。另一种方法可能是保留损失函数并使用SPSA，但如果可能的话，我想保持简单。

编辑：我想出了

L (\hat{y}, y) = - (γ \hat{y})^{y} (- \hat{y})^{1 - y}

$\mathcal L(\hat y,y) = - (\gamma \hat y)^{y}(-\hat y)^{1-y}$ 目前，我不知道它是否适用于 NN 学习。我担心（可能是不必要的），如果没有对数，关于 NN 权重它不是凸的。（最后一层有 sigmoid 激活。）这是为了比较而显示的 log loss。

L (\hat{y}, y) = - (y \log \hat{y} + (1 - y) \log (1 - \hat{y})) = - \log [{\hat{y}}^{y} (1 - \hat{y})^{1 - y}]

$\mathcal L(\hat y,y) = - (y\log \hat y + (1-y)\log(1-\hat y)) = -\log[\hat y^y (1-\hat y)^{1-y}]$