数据挖掘 - 与 ELMO/ULMFiT 相比，BERT 有哪些关键优势？ - 吾爱随笔录

与 ELMO/ULMFiT 相比，BERT 有哪些关键优势？

数据挖掘深度学习 nlp

2021-09-14 17:57:10

我看到 BERT 系列被用作 NLP 任务的基准。与 ELMO 或 ULMFiT 等模型相比，BERT 有哪些关键优势？

2个回答

您将 BERT 及其衍生产品视为基准的原因可能是因为它比提到的其他模型更新，并且在许多 NLP 任务上显示出最先进的性能。因此，当研究人员发布新模型时，他们通常希望将它们与当前领先的模型（即 BERT）进行比较。我不知道是否有关于 BERT 与其他方法相比优势的研究，但看看它们的差异可能会提供一些见解：

由于其新颖的掩码语言建模技术，真正的双向BERT 具有深度双向性。另一方面，ELMo 使用从右到左和从左到右的 LSTM 的串联，而 ULMFit 使用单向 LSTM。理论上，具有双向上下文应该生成更准确的单词表示。

模型输入
BERT 将单词标记为子单词（使用 WordPiece），然后将其作为模型的输入。ELMo 使用基于字符的输入，而 ULMFit 是基于单词的。有人声称字符级语言模型的性能不如基于单词的模型，但基于单词的模型存在词汇量不足的问题。BERT 的子词方法两全其美。

Transformer 与 LSTM
BERT 的核心是使用 Transformer，而 ELMo 和 ULMFit 都使用 LSTM。除了这两种方法的工作方式不同之外，还应该注意的是，使用转换器可以实现训练的并行化，这是处理大量数据时的一个重要因素。

这个列表继续包含诸如模型训练的语料库、用于训练的任务等等。因此，虽然 BERT 确实在各种 NLP 任务中显示出 SOTA 性能，但有时其他模型的性能更好。因此，当您处理一个问题时，最好先测试其中的一些，看看哪个更适合您的需求。

BERT 使用神经网络的变压器架构，因此并行化非常有用，而另一个（ELMO 和 ULMfit）使用 LSTM。BERT 在许多 NLP 任务中具有最先进的性能。

但我听说 araBERT 在阿拉伯语情绪分析方面的性能不如 hULMounA，如果我错了请纠正我

其它你可能感兴趣的问题

上一篇辨别与校准 - 机器学习模型下一篇什么是连续排名概率分数 (CRPS)？