人工智能 - Retina-net 的焦点损失是否实现了它的目标？ - 吾爱随笔录

取出加权因子，我们可以将焦点损失定义为

F L (p) = - (1 - p)^{γ} l o g (p)

$FL(p) = -(1-p)^\gamma log(p)$

在哪里 $p$ 是目标概率。这个想法是单阶段目标检测器在前景和背景之间存在巨大的类别不平衡（几个数量级的差异），与正常交叉熵相比，这种损失将缩小所有正分类的结果（ $CE(p) = -log(p)$ ) 以便优化可以专注于其余部分。

另一方面，一般的优化方案使用梯度来寻找下降最陡的方向。存在适应、动量等的方法，但这是一般要点。

θ \leftarrow θ - η \nabla_{θ} L

$\theta \leftarrow \theta - \eta \nabla_\theta L$

焦点损失梯度如下

\dot{F L} (p) = \dot{p} [γ (1 - p)^{γ - 1} l o g (p) - \frac{(1 - p)^{γ}}{p}]

$\dot {FL}(p) = \dot p [\gamma(1-p)^{\gamma -1} log(p) -\frac{(1-p)^\gamma}{p}]$ 与正常的交叉熵损失相比

\dot{C E} (p) = - \frac{\dot{p}}{p}

$\dot{CE}(p) = -\frac{\dot p}{p}$

所以我们现在可以将这些重写为

\dot{F L} (p) = (1 - p)^{γ} \dot{C E} (p) + γ \dot{p} (1 - p)^{γ - 1} l o g (p)

$\dot{FL}(p) = (1-p)^\gamma \dot{CE}(p) + \gamma \dot p (1-p)^{\gamma -1} log(p)$

第一项，鉴于我们的优化方案将做我们（和视网膜论文的作者）想要的，它缩小了已经分类好的标签的效果，但第二项在参数空间中的解释性稍差，可能会导致一个不想要的结果。所以我的问题是为什么不删除它而只使用渐变

\dot{L} = (1 - p)^{γ} \dot{C E} (p)

$\dot L = (1-p)^\gamma \dot{CE}(p)$

其中给出了一个 $\gamma \in \mathbb{N}$ 产生损失函数

L (p) = - l o g (p) - \sum_{i = 1}^{γ} (\binom{γ}{i}) \frac{(- p)^{i}}{i}

$L(p) = -log(p) - \sum_{i=1}^\gamma {\gamma \choose i}\frac{(-p)^i}{i}$

总结：在像焦点损失这样的情况下，我们让损失自适应而不是梯度是有原因的吗？第二个术语是否增加了一些有用的东西？