BERT 如何处理灾难性遗忘?

数据挖掘 深度学习 nlp 迁移学习
2022-01-21 21:28:16

ULMFit 论文中,作者提出了一种逐渐解冻的策略,以应对灾难性遗忘。也就是说,当模型开始根据下游任务进行微调时,存在忘记较低层信息的危险。虽然谷歌的 BERT也是一种预训练的语言模型,它利用微调来处理下游任务,但作者并没有提到这种现象。为什么会这样?BERT 对它免疫吗?或者它是否以另一种方式处理这个问题?

2个回答

据我所知,在微调(本质上是受控的再训练)期间,没有任何神经网络可以避免灾难性的遗忘。

关键是不要为更长的时期或更高的学习率微调预训练模型。这确保了从较低层学到的知识或多或少保持完整,同时也帮助模型从用于微调的新数据中学习,如下所述:https ://github.com/huggingface/transformers/issues /1019

为了避免过度拟合微调数据(这是 ULMFiT 的作者在提到灾难性遗忘时所关注的),通常对 BERT 采取这些措施: