我最近在看Knowledge Distillation论文,遇到了这个词smooth probabilities。该术语用于表示当 logits 除以温度时。
Knowledge Distillation
smooth probabilities
神经网络通常通过使用输出层生成类概率,该 输出层将计算每个类softmax的 logit 转换为概率 ,通过与通常设置为 1 的温度的其他 logit进行比较。使用更高的值类上更软的概率分布。ziqiziTT
softmax
zi
qi
T
直觉上是什么意思?
什么时候TT变大,即
鉴于前面提到的事实,我想他指的是平滑,即如果排除噪音,剩下的就是数据的重要模式,也就是说,正如@Emre 提到的那样,分布变得不那么“尖锐”。