损失先减少后增加

数据挖掘 nlp 伯特 变压器
2022-03-07 15:33:42

我正在使用预训练xlnet-base-cased模型并在真假新闻检测数据集上对其进行进一步训练。我注意到第一个时代的准确性趋势。准确度会增加到第一个时期的某个点(大约一半),然后降低。损失也先减少后迅速增加(不是Nan)。这种趋势的原因是什么?
当我尝试使用roberta-base. 但是当我用 训练时没有注意到任何这样的趋势distilbert,在这种情况下,准确性继续增加。

这是准确性与步骤的图表: 在此处输入图像描述

[编辑] 包含模型运行输出的文件: https ://drive.google.com/file/d/1r5AWftyHTLf5sqtgWnQm_4lqB84UrJex/view?usp=sharing

0个回答
没有发现任何回复~