如果我们使用 BERT,是否需要 BiLSTM 层?

数据挖掘 lstm 伯特 命名实体识别
2021-09-22 12:39:18

我是基于深度学习的 NLP 的新手,我有一个疑问 - 我正在尝试建立一个 NER 模型,我发现一些期刊的人们依赖 BERT-BiLSTM-CRF 模型。据我所知,BERT 是一种语言模型,可以在两个方向上扫描上下文并根据上下文嵌入单词。现在我的问题是——如果在使用 BERT 进行词嵌入期间捕获了上下文,为什么我们需要另一层 BiLSTM?

1个回答

确实不需要该层,因为它也对序列进行编码,尽管方式与 BERT 不同。

我假设在 BERT-BiLSTM-CRF 设置中,BERT 层要么被冻结,要么由于其庞大的尺寸而难以微调。这可能就是为什么在那里添加了 BiLSTM 层的原因。