特定领域数据的掩码语言建模

数据挖掘 深度学习 nlp 变压器 拥抱脸
2022-02-23 02:09:29

我的目标是拥有一个能够理解单词之间关系并可以在与特定领域相关的句子中填充掩码的语言模型。起初,我考虑从头开始预训练甚至训练语言模型(如 BERT),但不幸的是,我的数据并没有那么大,无法帮助之前的模型学习新的连接,更不用说从头开始学习嵌入了。

现在我想到的是用我自己的词汇表创建一个转换器模型,它由我的特定领域数据中的单词组成(在用空格分隔它们并且不使用转换器标记器之后)。这样,词汇量会更小,位置和关系会更快更容易地学习。虽然我对实现有点困惑。

我可以使用这种架构(即用于 NMT)并为输入和输出提供纯文本吗?或者我应该掩盖输入中的一些标记并将完整的句子作为标签?

还有其他建议吗?

1个回答

首先,我建议阅读变形金刚论文几个快速说明是,这个模型由一个编码器和一个解码器组成,而本文训练的原始任务是机器翻译。他们用来从头开始训练和评估这个模型的数据集(基准)是 WMT 2014 英语到德语,WMT 2014 英语到法语(论文的第 5.1 节)。结论是,除非您有 2 种语言的句子对,否则您无法从头开始训练转换器。

另一方面,传销是 BERT 用于训练的东西。因此,如果您想朝这个方向发展,您可以使用预训练的 BERT,并使用您自己的数据集在您的 BERT 模型之上使用 Masked 语言模型头对其进行微调。您需要坚持使用最初训练 BERT 的标记器,但至少您正在利用从头开始训练 BERT 期间学到的一些一般上下文。如果您想从头开始训练 BERT 或使用 MLM 头进行微调,您可以按照本教程从拥抱脸开始