数据挖掘 - 微调 BERT 是否涉及更新所有参数或仅涉及最终分类层？ - 吾爱随笔录

微调 BERT 是否涉及更新所有参数或仅涉及最终分类层？

数据挖掘 nlp 伯特变压器微调预训练

2022-02-14 07:39:24

目前正在学习和阅读变压器模型，我了解到在预训练阶段，BERT 模型是通过 MLM 和 NSP 在大型语料库上进行训练的。但是在微调过程中，例如尝试根据另一个文本对情绪进行分类，是所有 BERT 参数（110M+ 参数 + 最终分类层）都更新了，还是仅更新了最终分类层？在我一直在寻找的资源中找不到具体的答案。

先感谢您。

2个回答

两种方法都是合理的。更新 BERT 权重将训练更长的时间，但应该会给出更准确的结果。

默认情况下，BERT 微调涉及学习特定于任务的层（对于分类任务，CLS 令牌之上的神经网络），以及更新模型的现有参数以适应任务。因此，它既是新层 + BERT 模型权重。但是，您仍然可以选择仅使用 CLS 令牌的嵌入并仅训练其上的层以降低训练复杂性。但是，这是性能和计算成本之间的权衡问题。

其它你可能感兴趣的问题

上一篇从句子的开头构造 word2vec (CBOW) 训练数据下一篇Adaboost 与其他分类器拟合