数据挖掘 - 损失先减少后增加 - 吾爱随笔录

我正在使用预训练xlnet-base-cased模型并在真假新闻检测数据集上对其进行进一步训练。我注意到第一个时代的准确性趋势。准确度会增加到第一个时期的某个点（大约一半），然后降低。损失也先减少后迅速增加（不是Nan）。这种趋势的原因是什么？
当我尝试使用roberta-base. 但是当我用训练时没有注意到任何这样的趋势distilbert，在这种情况下，准确性继续增加。

这是准确性与步骤的图表：

[编辑] 包含模型运行输出的文件： https ://drive.google.com/file/d/1r5AWftyHTLf5sqtgWnQm_4lqB84UrJex/view?usp=sharing