我正在使用预训练xlnet-base-cased模型并在真假新闻检测数据集上对其进行进一步训练。我注意到第一个时代的准确性趋势。准确度会增加到第一个时期的某个点(大约一半),然后降低。损失也先减少后迅速增加(不是Nan)。这种趋势的原因是什么?
当我尝试使用roberta-base. 但是当我用 训练时没有注意到任何这样的趋势distilbert,在这种情况下,准确性继续增加。
[编辑] 包含模型运行输出的文件: https ://drive.google.com/file/d/1r5AWftyHTLf5sqtgWnQm_4lqB84UrJex/view?usp=sharing
