我遇到了一些 Facebook 研究人员的这篇论文,他们发现在训练期间使用 softmax 和 CE 损失函数可以比 sigmoid + BCE 得到更好的结果。他们通过改变 one-hot 标签向量来做到这一点,使得每个“1”除以给定图像的标签数量(例如,从 [0, 1, 1, 0] 到 [0, 0.5, 0.5, 0] )。
但是,他们没有提到如何在推理阶段使用它,因为选择正确标签所需的阈值尚不清楚。
有谁知道这将如何工作?
我遇到了一些 Facebook 研究人员的这篇论文,他们发现在训练期间使用 softmax 和 CE 损失函数可以比 sigmoid + BCE 得到更好的结果。他们通过改变 one-hot 标签向量来做到这一点,使得每个“1”除以给定图像的标签数量(例如,从 [0, 1, 1, 0] 到 [0, 0.5, 0.5, 0] )。
但是,他们没有提到如何在推理阶段使用它,因为选择正确标签所需的阈值尚不清楚。
有谁知道这将如何工作?
关于你的问题:
但是,他们没有提到如何在推理阶段使用它,因为选择正确标签所需的阈值尚不清楚。
有谁知道这将如何工作?
虽然这个答案可能不令人满意,但我相信答案是:你不会用它来推理。
该论文描述了如何仅在预训练期间使用 softmax 进行多标签分类,他们只需要计算多标签 softmax 相对于他们已经知道的基本事实的损失。Facebook 的论文讨论了他们如何使用在主题标签数据预训练期间发现的特征,或者将主题标签训练的神经网络仅用作权重初始化点——而不是用于对“实时数据”的实际推断。
softmax 函数仅给出标签的相对置信水平,并给出更多“序数”而不是“基数”使用的概率值,因此为了在推理过程中使用 softmax 值,需要一种单独的方法来确定要提取多少标签,是否是一个预先确定的常数 n(论文指出,每张图像平均每张图像有大约 2 个规范主题标签,因此这是一个可能的选择),一个单独的算法/模型,它决定了多少标签图像应该有,等等。
资料来源:
D. Mahajan 等人,“探索弱监督预训练的极限”,2018 年 9 月。