Minibatch 是输入到网络中的示例集合,(一个又一个示例),并且在每个示例之后完成反向传播。然后我们取这些梯度的平均值并更新我们的权重。这样就完成了 1 个 minibatch 的处理。
我读了这些帖子
- [1]
- [2] ,
- 关于小批量中的填充条目,因此它们具有相同的长度
- 关于保留细胞状态,但我仍然不清楚以下内容:
问题一:
LSTM 的小批量实体是什么样的?比如说,我希望它一个字母一个字母地再现莎士比亚(30 个字符可供选择)。
我启动 LSTM,让它预测一首诗的 200 个字符,然后执行反向传播。(因此,我的 LSTM 使用 200 个时间步长)。这是否意味着我的小批量包含 1 个长度为 200 的示例?
问题b部分:
如果我想并行推出 63 首其他小批量,我会选择额外的 63 首诗吗?(编辑:原始答案没有明确提到这一点,但我们不会并行训练小批量。我们训练 1 个小批量,但并行训练它的示例)
问题 C 部分:
如果我希望每个 minibatch 包含 10 个不同的示例,这些示例会是什么,它们与“我认为的 minibatch”有何不同?