微调 BERT 是否涉及更新所有参数或仅涉及最终分类层?

数据挖掘 nlp 伯特 变压器 微调 预训练
2022-02-14 07:39:24

目前正在学习和阅读变压器模型,我了解到在预训练阶段,BERT 模型是通过 MLM 和 NSP 在大型语料库上进行训练的。但是在微调过程中,例如尝试根据另一个文本对情绪进行分类,是所有 BERT 参数(110M+ 参数 + 最终分类层)都更新了,还是仅更新了最终分类层?在我一直在寻找的资源中找不到具体的答案。

先感谢您。

2个回答

两种方法都是合理的。更新 BERT 权重将训练更长的时间,但应该会给出更准确的结果。

默认情况下,BERT 微调涉及学习特定于任务的层(对于分类任务,CLS 令牌之上的神经网络),以及更新模型的现有参数以适应任务。因此,它既是新层 + BERT 模型权重。但是,您仍然可以选择仅使用 CLS 令牌的嵌入并仅训练其上的层以降低训练复杂性。但是,这是性能和计算成本之间的权衡问题。