使用 softmax 进行多标签分类(根据 Facebook 论文)

数据挖掘 机器学习 深度学习 卷积神经网络 多标签分类 可能性
2022-02-26 21:00:31

我遇到了一些 Facebook 研究人员的这篇论文,他们发现在训练期间使用 softmax 和 CE 损失函数可以比 sigmoid + BCE 得到更好的结果。他们通过改变 one-hot 标签向量来做到这一点,使得每个“1”除以给定图像的标签数量(例如,从 [0, 1, 1, 0] 到 [0, 0.5, 0.5, 0] )。

但是,他们没有提到如何在推理阶段使用它,因为选择正确标签所需的阈值尚不清楚。

有谁知道这将如何工作?

1个回答

关于你的问题:

但是,他们没有提到如何在推理阶段使用它,因为选择正确标签所需的阈值尚不清楚。

有谁知道这将如何工作?

虽然这个答案可能不令人满意,但我相信答案是:你不会用它来推理。

该论文描述了如何仅在预训练期间使用 softmax 进行多标签分类,他们只需要计算多标签 softmax 相对于他们已经知道的基本事实的损失。Facebook 的论文讨论了他们如何使用在主题标签数据预训练期间发现的特征,或者将主题标签训练的神经网络仅用作权重初始化点——而不是用于对“实时数据”的实际推断。

softmax 函数仅给出标签的相对置信水平,并给出更多“序数”而不是“基数”使用的概率值,因此为了在推理过程中使用 softmax 值,需要一种单独的方法来确定要提取多少标签,是否是一个预先确定的常数 n(论文指出,每张图像平均每张图像有大约 2 个规范主题标签,因此这是一个可能的选择),一个单独的算法/模型,它决定了多少标签图像应该有,等等。

资料来源:

D. Mahajan 等人,“探索弱监督预训练的极限”,2018 年 9 月。