为什么在多类单标签问题中二元交叉熵比分类交叉熵更有效?

人工智能 神经网络 分类 目标函数 交叉熵
2021-11-03 13:21:31

我只是在使用时尚 MNIST 数据集做一个简单的 NN 示例,我在其中获得了 97% 的准确率,这时我注意到我偶然使用了二元交叉熵而不是分类交叉熵。当我切换到分类交叉熵时,准确率下降到 90%。然后我很好奇并尝试在我的其他项目中使用二元交叉熵而不是分类交叉熵,并且在所有这些项目中准确性都提高了。

现在,我知道二进制交叉熵可以用于多类、多标签分类问题,但为什么在多类单标签问题中比分类交叉熵更好?

1个回答

https://stats.stackexchange.com/questions/260505/machine-learning-should-i-use-a-categorical-cross-entropy-or-binary-cross-entro 是相关的。

根据我的阅读,当你有一个神经网络并对你可能称之为“链接类别数据”的二进制交叉熵进行分析时,准确性往往比分类交叉熵模型更好。二进制方面意味着类别可以在决定确切类别之前进行多次拆分,当数据在树状层次结构中像这样分类可拆分时,准确性可能会更好。

想想如果每件衣服都有自己的特殊名称,记住某人衣橱中每种衣服的名称是多么困难。与它们是否具有结构相关的名称(例如第一类的上/下)相比,它会在您的上半部分或下半部分发出警告。其次是内或外。它是衣服的内层或外层。学习这种二进制名称/特征类别可以实现更准确的模型。如果它是以这种方式无关的数据,它很可能不会那么准确。二元模型可以利用学习这些特征,而我认为多分类模型假设独立并尝试最好地学习每个组的特征,并预测它在每个类别中的确定程度。