我是深度学习库的新手,因此决定使用Keras。在实现 NN 模型时,我batch_size在model.fit().
现在,我想知道我是否使用SGD优化器,然后设置batch_size = 1,m和b, where m= no。训练示例和 1 < b< m,那么我实际上将分别实现Stochastic、Batch和Mini-Batch Gradient Descent。然而,另一方面,我觉得使用SGD作为优化器会默认忽略batch_size参数,因为SGD代表随机梯度下降,它应该始终使用 1 的 batch_size(即,每次梯度下降迭代使用单个数据点)。
如果有人能澄清以上两种情况中哪一种是真实的,我将不胜感激。