我是深度学习库的新手,因此决定使用Keras。在实现 NN 模型时,我batch_size
在model.fit()
.
现在,我想知道我是否使用SGD
优化器,然后设置batch_size = 1
,m
和b
, where m
= no。训练示例和 1 < b
< m
,那么我实际上将分别实现Stochastic、Batch和Mini-Batch Gradient Descent。然而,另一方面,我觉得使用SGD作为优化器会默认忽略batch_size
参数,因为SGD代表随机梯度下降,它应该始终使用 1 的 batch_size(即,每次梯度下降迭代使用单个数据点)。
如果有人能澄清以上两种情况中哪一种是真实的,我将不胜感激。