我的目标是拥有一个能够理解单词之间关系并可以在与特定领域相关的句子中填充掩码的语言模型。起初,我考虑从头开始预训练甚至训练语言模型(如 BERT),但不幸的是,我的数据并没有那么大,无法帮助之前的模型学习新的连接,更不用说从头开始学习嵌入了。
现在我想到的是用我自己的词汇表创建一个转换器模型,它由我的特定领域数据中的单词组成(在用空格分隔它们并且不使用转换器标记器之后)。这样,词汇量会更小,位置和关系会更快更容易地学习。虽然我对实现有点困惑。
我可以使用这种架构(即用于 NMT)并为输入和输出提供纯文本吗?或者我应该掩盖输入中的一些标记并将完整的句子作为标签?
还有其他建议吗?