数据挖掘 - 是否可以使 F1_Score 可微分并直接用作损失函数？ - 吾爱随笔录

是否可以使 F1_Score 可微分并直接用作损失函数？

数据挖掘机器学习 Python 优化损失函数 f1score

2021-09-25 23:58:45

在二元分类中广泛使用的指标之一是 F1 分数：

$F_1 = 2\cdot \frac{recall \cdot precision}{recall+precision}$

F1-score 的问题在于它不可微，因此我们不能将其用作损失函数来计算梯度并在训练模型时更新权重。F1 分数需要二元预测 (0/1) 来测量。

我经常看到它。假设我使用的是线性回归或梯度提升。

有什么办法可以直接最小化吗？

2个回答

是的，让我们采取 $F_1$ 分数基定义，具有：

F_{1} = 2 \times \frac{p r e c i s i o n \times r e c a l l}{p r e c i s i o n + r e c a l l} F_{1} = \frac{2 \times T P}{2 \times T P + F P + F N}

$F_1 = 2 \times \frac{precision \times recall} {precision + recall} \\ F_1 = \frac{2 \times TP} {2 \times TP + FP + FN}$ 这与Sørensen-Dice系数相同，也称为 Dice 系数或 Bray-Curtis 距离。这是衡量两个样本相似度的统计指标：

D i c e (X, Y) = \frac{2 | X \cap Y |}{| X | + | Y |}

$Dice(X,Y) = \frac{2|X \cap Y|}{|X| + |Y|}$

关于这个损失的实现，我们可以近似 $|X \cap Y|$ 作为使用Hadamard 乘积获得的矩阵的总和( $\odot$ , 也称为元素乘积) 之间的基本事实 ( $y$ ) 和预测 ( $\hat{y}$ ）。然后我们可以定义 $L_{Dice}$ 如下：

\begin{aligned} L_{D i c e} & = 1 - D i c e \\ L_{D i c e} (y, \hat{y}) & = 1 - \frac{2 \sum y ⊙ \hat{y}}{\sum y + \sum \hat{y}} \end{aligned}

$\begin{align*} L_{Dice} &= 1 - Dice \\ L_{Dice}\left(y, \hat{y}\right) &= 1 - \frac{ 2\sum y \odot \hat{y}} {\sum y + \sum \hat{y}} \end{align*}$

您经常会在分割问题的上下文中发现这种损失，以及其他非常接近的问题，例如Jaccard 索引(IoU)。

继 Thomas 之后，关于 Bray-Curtis 距离与 F1 分数之间的关系以及一阶和二阶导数的计算：如果将向量 X 和向量 Y 之间的 Bray Curtis 距离定义为： $\sum |X_i-Y_i| \over {\sum (X_i+Y_i)}$ , 比一阶导数 $x$ 是 $d \over (dx)$ $|x - y| \over {(x + y)}$ = $2y(x - y) \over{\big((x + y)^2(|x - y|)\big)}$ 二阶导数是 ${d^2 \over{dx^2}} {|x - y| \over(x + y)} = {-4y*(x - y) \over\big((x + y)^3*(|x - y|)\big)}$

其它你可能感兴趣的问题

上一篇在逻辑回归中找到最小值的最佳方法是什么？下一篇不需要告诉集群数量的聚类算法