数据挖掘 - 关于分类交叉熵的混淆 - 吾爱随笔录

我了解单个标签 0 或 1 的问题的二进制交叉熵公式。如果我们有超过 2 个标签，我们会将所有这些类的二进制交叉熵相加。

H_{y^{'}} (y) := - \sum_{i} \sum_{c} (y_{i, c}^{'} \log (y_{i, c}) + (1 - y_{i, c}^{'}) \log (1 - y_{i, c}))

$H_{y'}(y) := - \sum_{i} \sum_{c} ({y_{i, c}' \log(y_{i, c}) + (1-y_{i, c}') \log (1-y_{i, c})})$

我一直认为以上是分类交叉熵，但结果如下：

H_{y^{'}} (y) := - \sum_{i} y_{i}^{'} \log (y_{i})

$H_{y'} (y) := - \sum_{i} y_{i}' \log (y_i)$

我很确定这两个公式实际上是不同的，但我认为两者都会起作用。我意识到第二个公式不适用于标签不互斥的问题（标签向量可以有多个 1），但我仍然不明白为什么我们不能只使用第一个公式来解决所有问题标签是否互斥？第二个公式有什么需要，为什么要提供它而不是第一个公式？