论文Attention Is All You Need描述了具有编码器和解码器的转换器架构。
但是,对于这样的架构,我不清楚要最小化的成本函数是什么。
考虑一个翻译任务,例如,给出一个英文句子,转换器将句子解码为法语句子. 假设真正的标签是.
变压器的目标函数是什么?是 MSE 之间和? 它有任何权重正则化项吗?
论文Attention Is All You Need描述了具有编码器和解码器的转换器架构。
但是,对于这样的架构,我不清楚要最小化的成本函数是什么。
考虑一个翻译任务,例如,给出一个英文句子,转换器将句子解码为法语句子. 假设真正的标签是.
变压器的目标函数是什么?是 MSE 之间和? 它有任何权重正则化项吗?
我看了一下Tensor2Tensor的源代码实现,看起来损失函数是预测概率矩阵之间的交叉熵(在获取 argmax 以查找要输出的令牌之前),以及- 标记 ID 的长度向量作为真实标签。