在深度学习中使用非常大的模型时,由于内存限制,训练通常需要很长时间并且需要小批量。
通常,在训练开始后,我们会留下一个模型检查点。我想知道我们采取该检查点的确切时间是否会显着影响模型输出的统计属性。
例如:
在文本生成中,假设就在我们提取检查点之前,模型学习了具有比平均值更长的句子的统计异常批次。
这会导致我们的模型生成更长的句子,过度代表最近一批异常文本吗?
由于训练批次通常是从数据集中随机生成的,因此肯定会出现这种不具代表性的批次,有时就在我们保存检查点之前。
在较慢的深度学习场景中,是否有任何关于这种潜在有害的新近度偏差的研究?
我能找到的唯一参考资料是故意尝试使用这种偏见,但我没有找到任何关于不受欢迎的新近度偏见的文献。