机器学习分类器经常使用交叉熵, 在哪里是真实分布(通常是增量)和是类的预测分布(或者至少可以这样解释)。
最小化这一点与最小化真值和预测之间的 KL 散度相同,因为
在哪里是熵(对于增量为零,或者在任何情况下都保持模型不变)。
问题:我们为什么不使用
在哪里是一个对称的 KL 散度。请注意,这也试图最小化预测中的不确定性,这对我来说似乎是一件合理的事情。
机器学习分类器经常使用交叉熵, 在哪里是真实分布(通常是增量)和是类的预测分布(或者至少可以这样解释)。
最小化这一点与最小化真值和预测之间的 KL 散度相同,因为
问题:我们为什么不使用
考虑像您提到的分类上下文,其中是给定输入的类上的模型分布.是“真实”分布,定义为以每个数据点的真实类为中心的增量函数:
为了th 数据点,交叉熵是:
因为什么时候,这需要对涉及的项求和, 和将会或未定义。
交叉熵是用于确定预测概率模型有多好的方法之一。
ℍ[𝑝,𝑞] 的交叉熵可以具有的最小值是当 𝑞=𝑝 即 ℍ[𝑝,𝑝] 时,简单的分布熵 𝑝。
在评估不同的构建模型时说𝑞和𝑞',我们经常需要比较不同的模型,这里可以使用交叉熵。值越接近 ℍ[𝑝,𝑝],我们的模型就越好。
但是,如果我们采用对称交叉熵,虽然这里也有一个下界,但是很难比较两个不同的模型。