目前正在学习和阅读变压器模型,我了解到在预训练阶段,BERT 模型是通过 MLM 和 NSP 在大型语料库上进行训练的。但是在微调过程中,例如尝试根据另一个文本对情绪进行分类,是所有 BERT 参数(110M+ 参数 + 最终分类层)都更新了,还是仅更新了最终分类层?在我一直在寻找的资源中找不到具体的答案。
先感谢您。
目前正在学习和阅读变压器模型,我了解到在预训练阶段,BERT 模型是通过 MLM 和 NSP 在大型语料库上进行训练的。但是在微调过程中,例如尝试根据另一个文本对情绪进行分类,是所有 BERT 参数(110M+ 参数 + 最终分类层)都更新了,还是仅更新了最终分类层?在我一直在寻找的资源中找不到具体的答案。
先感谢您。
两种方法都是合理的。更新 BERT 权重将训练更长的时间,但应该会给出更准确的结果。
默认情况下,BERT 微调涉及学习特定于任务的层(对于分类任务,CLS 令牌之上的神经网络),以及更新模型的现有参数以适应任务。因此,它既是新层 + BERT 模型权重。但是,您仍然可以选择仅使用 CLS 令牌的嵌入并仅训练其上的层以降低训练复杂性。但是,这是性能和计算成本之间的权衡问题。