我看到 BERT 系列被用作 NLP 任务的基准。与 ELMO 或 ULMFiT 等模型相比,BERT 有哪些关键优势?
与 ELMO/ULMFiT 相比,BERT 有哪些关键优势?
您将 BERT 及其衍生产品视为基准的原因可能是因为它比提到的其他模型更新,并且在许多 NLP 任务上显示出最先进的性能。因此,当研究人员发布新模型时,他们通常希望将它们与当前领先的模型(即 BERT)进行比较。我不知道是否有关于 BERT 与其他方法相比优势的研究,但看看它们的差异可能会提供一些见解:
由于其新颖的掩码语言建模技术,真正的双向BERT 具有深度双向性。另一方面,ELMo 使用从右到左和从左到右的 LSTM 的串联,而 ULMFit 使用单向 LSTM。理论上,具有双向上下文应该生成更准确的单词表示。
模型输入
BERT 将单词标记为子单词(使用 WordPiece),然后将其作为模型的输入。ELMo 使用基于字符的输入,而 ULMFit 是基于单词的。有人声称字符级语言模型的性能不如基于单词的模型,但基于单词的模型存在词汇量不足的问题。BERT 的子词方法两全其美。
Transformer 与 LSTM
BERT 的核心是使用 Transformer,而 ELMo 和 ULMFit 都使用 LSTM。除了这两种方法的工作方式不同之外,还应该注意的是,使用转换器可以实现训练的并行化,这是处理大量数据时的一个重要因素。
这个列表继续包含诸如模型训练的语料库、用于训练的任务等等。因此,虽然 BERT 确实在各种 NLP 任务中显示出 SOTA 性能,但有时其他模型的性能更好。因此,当您处理一个问题时,最好先测试其中的一些,看看哪个更适合您的需求。
BERT 使用神经网络的变压器架构,因此并行化非常有用,而另一个(ELMO 和 ULMfit)使用 LSTM。BERT 在许多 NLP 任务中具有最先进的性能。
但我听说 araBERT 在阿拉伯语情绪分析方面的性能不如 hULMounA,如果我错了请纠正我