深度学习中是否存在固有的新近度偏差?

数据挖掘 机器学习 深度学习
2021-09-24 15:56:08

在深度学习中使用非常大的模型时,由于内存限制,训练通常需要很长时间并且需要小批量。
通常,在训练开始后,我们会留下一个模型检查点。我想知道我们采取该检查点的确切时间是否会显着影响模型输出的统计属性。

例如:
在文本生成中,假设就在我们提取检查点之前,模型学习了具有比平均值更长的句子的统计异常批次。
这会导致我们的模型生成更长的句子,过度代表最近一批异常文本吗?

由于训练批次通常是从数据集中随机生成的,因此肯定会出现这种不具代表性的批次,有时就在我们保存检查点之前。
在较慢的深度学习场景中,是否有任何关于这种潜在有害的新近度偏差的研究?

我能找到的唯一参考资料是故意尝试使用这种偏见,但我没有找到任何关于不受欢迎的新近度偏见的文献。

1个回答

您的问题很有趣,但是我觉得您忽略了推理中的一个关键点:

您通常会在模型检查点在验证集上表现最佳时进行检查。这意味着您保留的模型实例本质上是您评估过的模型中最强大和最通用的版本,因此受新近度偏差的影响最小。

但是,假设您不对模型进行检查点,而是在任意点停止它。自然地,您会认为最后一批中的样本对模型当前状态的影响远大于该时期的第一批。然而,在实践中,这将显示为常规的过度拟合,而不是新近度偏差。

处理这种情况的一些方法:

  • 相对较小的学习率
  • 等价的正则化作为参数规范惩罚(即 L1,L2,...)
  • 合奏
  • 其他更专业的技术,例如SGDA