我可以为 Seq2Seq 神经机器翻译微调 BERT、ELMO 或 XLnet 吗?

数据挖掘 机器学习 深度学习 伯特 序列到序列 机器翻译
2022-02-26 17:16:18

我正在研究将英语句子翻译成美国手语句子的神经机器翻译器(例如下面)。我有一个很小的数据集——大约 1000 个句子对。我想知道是否可以为 Seq2seq 编码器/解码器机器翻译微调 BERT、ELMO 或 XLnet。

中文: 他卖食物。

美国手语:他卖的食物

1个回答

您可以将 ELMo 或 BERT 等模型视为仅编码器。它们可以很容易地用于分类或序列标记,但标记序列通常与源序列单调对齐。尽管 BERT 或 XLNet 中的 Transformer 层理论上能够进行任意重新排序(用于非自回归机器翻译模型),但这并不是 BERT 或 XLNet 的训练目标,因此很难对此进行微调。

如果至少源端和目标端的词汇表相同,我会推荐预训练的序列到序列模型:MASSBART

如果语法和词汇以及手语的语法都大不相同,也许使用 BERT 作为编码器并训练自己的轻量级自回归解码器可能是正确的方法。