根据综合梯度论文,为什么基线的预测应该接近于零?

人工智能 深度学习 图像识别 文件
2021-10-27 06:46:21

我试图理解Intagrated Gradients,但难以理解作者的主张(在第 3 节,第 3 页):

对于大多数深度网络,可以选择一个基线,使得基线处的预测接近于零(F(x)0)。(对于图像模型,黑色图像基线确实满足此属性。)

他们在谈论一个功能F:Rn[0,1](在第 3 节的第 2 段中),如果您考虑深度学习分类模型,最后一层将是 softmax 层。然后,我怀疑对于图像模型,基线的预测应该接近1/k, 在哪里k是类别的数量。对于 CIFAR10 和 MNIST,这将等于1/10, 这不是很接近0. 我有一个二进制分类模型,我对应用集成梯度算法很感兴趣。可以基线输出0.5有问题吗?

另一个相关的问题是,为什么他们首先选择黑色图像作为基线?图像分类模型(在卷积层中)中的参数通常在0,并且输入也被归一化。因此,图像分类模型并不真正关心输入的符号。我的意思是我们可以将所有的训练和测试输入乘以1,并且模型将等效地学习任务。我想我可以找到除黑色以外的其他中性图像。我想我们可以选择白色图像作为基线,或者标准化后基线应该全为零?

1个回答

你是对的,只有当有大量标签类时,基线分数才接近于零,即当 k 很大时。我们应该更仔细地在论文中对这条线进行限定。

从这个意义上说,该技术正式解释了输入分数和基线分数之间的预测差异,正如本文其他地方所阐明的那样(例如,参见备注 1 和命题 1。)