数据挖掘 - 与监督学习相比，强化学习中的批量迭代和时期是否不同？ - 吾爱随笔录

我正在学习 Udacity 的“AWS DeepRacer”课程，该课程是关于带有强化学习的自动驾驶汽车。在一节课中，他们这样说：

批量大小- 这决定了在更新模型之前从最近一集中随机采样的图像数量用于训练。

Epochs - 确定在更新训练权重之前循环批处理数据的次数。如果您的模型仍在改进但训练已经停止，则可能需要更多的 epoch。

学习率- 控制算法学习的速度（它会在每个 epoch 后扩大或缩小权重更新）。

将 Tensorflow 和 Keras 与 Adam 一起使用，我了解到权重在每次批量迭代后都会更新。但是在本课程中，他们说权重仅在每个 epoch 之后更新，并且批量大小决定了在更新模型之前要循环多少训练数据。那么，更新模型和更新权重有什么区别呢？在带有 keras 的 tensorflow 中，权重在每次批量迭代之后以及每个 epoch 之后都会更新？与RL相比有什么不同吗？