变压器的成本函数是多少?

人工智能 神经网络 自然语言处理 目标函数 变压器 注意力
2021-10-31 10:04:37

论文Attention Is All You Need描述了具有编码器和解码器的转换器架构。

但是,对于这样的架构,我不清楚要最小化的成本函数是什么。

考虑一个翻译任务,例如,给出一个英文句子xenglish=[x0,x1,x2,,xm],转换器将句子解码为法语句子xfrench=[x0,x1,,xn]. 假设真正的标签是yfrench=[y0,y1,,yp].

变压器的目标函数是什么?是 MSE 之间xfrenchyfrench? 它有任何权重正则化项吗?

1个回答

我看了一下Tensor2Tensor的源代码实现,看起来损失函数是预测概率矩阵之间的交叉熵sentence length×vocab(在获取 argmax 以查找要输出的令牌之前),以及sentence length- 标记 ID 的长度向量作为真实标签。