假设我有一个包含 100 万条记录的训练样本集,我从中抽取 100 个批次来训练使用梯度下降和 MSE 作为损失函数的基本回归模型。假设已经从训练集中保留了测试和交叉验证样本,所以我们有 100 万个条目要训练。
考虑以下情况:
- 运行 2 个 epoch(我猜这个可能很糟糕,因为它基本上是 2 个单独的训练集)
- 在第一个 Epoch 训练中超过记录 1-500K
- 在超过 500K-1M 的第二个 epoch 训练中
- 运行 4 个 epoch
- 在第一个和第三个 Epoch 训练中超过记录 1-500K
- 500K-1M以上的第二和第四个epoch火车
- 运行 X 个 epochs,但每个 epoch 都有来自训练集中的随机 250K 样本可供选择
每个时代都应该有确切的样本吗?这样做有什么好处/坏处吗?我的直觉是样本中的任何偏差都会改变您正在下降的表面的“地形”,但我不确定样本是否来自同一个群体是否重要。