在训练具有概率目标值的模型时,哪种损失函数最合适?例如,我有一个 3 输出模型。我想用特征向量训练它和一个目标.
看起来像交叉熵这样的东西在这里没有意义,因为它假设单个目标是正确的标签。
像 MSE(应用 softmax 之后)这样的东西是否有意义,还是有更好的损失函数?
在训练具有概率目标值的模型时,哪种损失函数最合适?例如,我有一个 3 输出模型。我想用特征向量训练它和一个目标.
看起来像交叉熵这样的东西在这里没有意义,因为它假设单个目标是正确的标签。
像 MSE(应用 softmax 之后)这样的东西是否有意义,还是有更好的损失函数?
实际上,交叉熵损失函数在这里是合适的,因为它测量分布之间的“距离”和“真实”的分布.
不过,您是对的,在许多 API 中使用称为“cross_entropy”的损失函数是错误的。这是因为这些功能,正如你所说,假设一个热标签。您需要使用一般的交叉熵函数,
请注意,单热标签意味着
这导致了交叉熵简化为您熟悉的形式: